温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
文本
语义
分类
广播电视
自动化
系统
设计
贺晓琳
电视技术 第 47 卷第 1 期(总第 566 期)27PARTS&DESIGN器件与设计文献引用格式:贺晓琳.基于文本语义分类的广播电视自动化分类系统设计 J.电视技术,2023,47(1):27-29,35.HE X L.Design of automated classification system for radio and television based on semantic classification of textJ.Video Engineering,2023,47(1):27-29,35.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe.2023.01.006基于文本语义分类的广播电视自动化分类系统设计贺晓琳(河南工业和信息化职业学院,河南 焦作 454000)摘要:针对传统广播电视自动分类系统存在的内容特征提取单一、内容分类准确率不理想问题,提出基于文本语义的混合多层分类模型。模型通过引入 TextRank 算法,完成对广播电视节目文本介绍内容的关键语义词的提取,进而使用 BM25 算法对冗余的语义关键词进行去除,最终通过 FastText 模型完成对广播电视节目的文本自动分类操作。搭建实验环境对提出的模型进行实现与仿真,实验结果表明,改进后的方式能够有效提升广播电视节目分类系统的分类准确性。关键词:文本语义;广播电视;自动分类;混合多层Design of Automated Classification System for Radio and Television Based on Semantic Classification of TextHE Xiaolin(Henan College of Industry&Information Technology,Jiaozuo 454000,China)Abstract:To address the problems of single content feature extraction and unsatisfactory content classification accuracy of the traditional broadcast television automatic classification system,a hybrid multi-layer classification model based on text semantics is proposed,which completes the extraction of key semantic words of the text introduction content of broadcast television programs by introducing the TextRank algorithm,and then uses the BM25 algorithm to remove redundant semantic keywords,and finally completes the automatic classification of broadcast television programs.Finally,the model proposed in this paper is implemented and simulated by setting up an experimental environment,and the experimental results show that the improved approach can effectively improve the classification accuracy of the broadcast TV program classification system.Keywords:text semantics;radio and television;automatic classification;hybrid multilayer0 引 言广播电视节目的分类工作对于任何一种数字化的广播电视内容管理系统而言都是一项必备的功能。而在实际的广播电视节目分类操作中,系统往往是通过广播电视节目的文本内容介绍进行类别的划分。随着广播电视节目朝着多样化的方向发展,针对广播电视节目的介绍也逐渐变得复杂化和多维化。这使得采用传统广播电视分类模型的系统往往会出现对广播电视内容介绍特征提取单一进而导致广播电视内容分类精确度不理想等问题。因此,本文针对传统广播电视自动分类系统存在的内容特征提取单一、内容分类精确度不理想的问题,提出了一种基于文本语义的混合多层分类模型。该改进的模型以广播电视节目介绍的文本内容为分类依据,通过引入 TextRank 算法来完成对广播电视文本介绍内容的关键语义特征词提取,进而通过 BM25 算法对冗余的特征语义词进行降维,最终通过 FastText 模型处理,完成对广播电视节目的自动化分类工作。1 相关技术介绍1.1 TextRank 算法TextRank 算法是一种基于图的用于文本语义 作者简介:贺晓琳(1990),女,本科,助教,研究方向为广播电视编导。28电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计关键词提取和排序的算法1。该算法由 Google 公司通过对 PageRank 算法进行优化而来。算法的核心是通过利用目标文档中不同词组间的语义信息来完成对关键词的提取工作,因此该算法可以对目标文本内容进行语义关键词按照重要程度排序,进而完成对关键语义短语的抽取工作。TextRank 算法的设计思想在于将目标文档解析为拥有大量词的网络结构2,而词与词之间的语义联系通过网络中的链接方式进行表示。该算法的计算方式如式(1)所示:()()()()()1jikjjiiiVIn VjkVOut VWS VddS VW=+(1)式中:S(Vi)表示目标文档中句子Vi的权重值,d代表阻尼系数,其默认值大小为 0.85,Wji表示不同的两个目标短语Vi与Vj的相似度,S(Vi)代表上次迭代出句子Vj的权重值,In(Vi)表示句子Vi的前驱集合,而Out(Vi)表示句子Vj的后继节点集合,右侧中的求和表示每个相邻句子对目标句子的贡献程度。1.2 BM25 算法BM25 算法是一种用于计算关键查询词相对于目标文档或者文件相关性评分的算法,最早用于计算机信息检索领域,其主要思想是对给定查询的关键词进行语素解析,进而生成相对应的语素词,之后对于每个给定的目标文档,计算不同语素词与文档之间的相关性的大小,最后通过将关键词相对于目标文档的相关性评分按照权重进行求和,从而获得查询关键词与文档的相关性得分3。通过对不同关键词同文档之间的相关性评分进行排序,进而获得较为精确的、能够代表当前文档类型的核心语义词。该算法的一般性公式如式(2)所示。()(),niiiScore Q dW R q d=(2)式中:Q表示查询的语义关键词,qi表示对Q进行解析之后所获取到的一个语素,d表示目标的文档集,Wi表示语素qi的权重值,R(qi,d)表示语素qi与文档d的相关性评分值。1.3 FastText 模型FastText 是有美国 FaceBook 公司开发的一种词向量与文本分类的工具4。由于该模型在表征学习和文本分类方面具备极强的高效性,因此在带有监督的文本分类的问题场景下有着广泛的应用。FastText 的模型架构如图 1 所示。从模型图中可以看出,FastText主要由输入层、隐含层和输出层构成,其中输入量为经向量表示的多个单词,输出的结果为一个特定的目标类别,而隐含层则是对多个词向量的叠加平局值。图 1 FastText 模型架构从模型图可以看出,从输入层到输出层,主要是通过将目标文档标识为一个由词构成的集合网络,进而叠加构成目标文档中所有词的向量,对叠加的值求平均值,来获得表征文档类型的向量,而在隐藏层输出类型到输出层过程中使用 softmax 线性分类器,用以提升分类的整体效率。2 基于文本语义分类的广播电视内容自动分类模型2.1 模型架构设计由于广播电视分类的主要方式是通过对广播电视内容的文本介绍进行关键词提取进而以关键词为基础来对广播电视的类型进行类别划分,而传统的分类方式往往只是通过提取内容介绍文本的关键词来对广播电视内容类型进行直接划分,而未对这些关键词所代表的文档语义关联性进行判定,因此传统广播电视在内容介绍的特征关键词提取上显得过于单一,进而影响广播电视最终的分类准确性5。对此,本文通过借助 FastText 模型在文本分类上的快速准确的优势,以 TextRank 算法作为语义特征关键词的提取与排序的基础,通过 BM25 算法进行语义特征降维,来去除冗余无用的特征向量,提升最终分类效果的准确性。本文提出的基于文本语义分类的广播电视内容自动分类模型架构如图 2 所示。2.2 流程分析由于广播电视节目的分类依据是对内容文本的关键词类别判定,因此准确的关键词提取是类别判定正确与否的关键性因素。而针对关键词的判定仅仅从其自身所表达的表层信息上很难对文本内容 电视技术 第 47 卷第 1 期(总第 566 期)29PARTS&DESIGN器件与设计做出准确判定,因此就需要深入挖掘关键词所表达的深入语义信息与目标文本之间的相关性大小。在确定目标分类文本的前提下,使用 TextRank算法对目标文本的关键子句进行提取。由于该算法主要应用于无监督学习状态,因此在提取关键词过程中不需要进行过多的额外训练。通过将目标文本内容看成词的网络集合并且通过不断地迭代,来计算核心关键字的权重值,对关键子句排序,最后将分值排序靠前的子句或者关键词抽取出来,作为语义特征关键字冗余处理的输入值进行保存。考虑到针对广播电视内容文本语义关键词的初步提取往往会出现相关性不强的冗余特征值,因此本文通过 BM25 算法对输入的关键词从语义层面计算其与目标文档的相关性,并将排序后相关性较低的关键词进行去除,以提升语义特征关键词的准确性6。最终的分类过程使用已经提前训练好的TextFast 模型进行。通过该模型处理最终获得语义关键词所对应类型的概率,最后选择概率最大的值所对应的类型,作为广播电视所对应的类别,完成最终的分类工作。3 实验环境搭建与测试3.1 实验环境的搭建本文搭建的实验环境硬件配置为:Intel Core i5-10300H 的 CPU,1 TB 硬盘,32 GB RAM,运行的系统环境为 Windows 10 X64 专业版,使用 Python3.8版本作为编程语言进行实验环境架构的构建。3.2 评价指标由于本文针对广播电视分类系统的改进主要是在分类准确性上进行的改善,因此本次实验将采用分类准确率作为核心数据进行比较,分类准确率ACC 的计算方式如式(3)所示:TPTNACCTPTNFPFN+=+(3)式中:TP表示实际为正且被准确分类的样本数量,TN表示实际为负且被正确分类的样本数量,FP表示实际为负而被错误分类的样本数量,FN表示实际为正而被错误分类的样本数量。3.3 实验方式与结果分析本文采用的数据为广播迷网站的多媒体数据集。该数据集包含了 25 480 条广播电视内容介绍信息,平均每个条目的内容介绍为 328 个字符。数据测试的方式采用单纯 FastText 的传统广播电视分类模型和改进后的混合多层分类模型,来对数据分类的准确性进行对比实验,结果如图 3 所示。从实验结果可以看出,随着测试数据条目的不断增加,改进后的广播电视分类的准确率在不断提升,而同量级的测试数据下,改进后方式的分类准确率较改进前平均提升 7.2%左右。0204060801001 0005 00010 00015 00020 000分类准确率/%测试条目数量/条传统基于FastText模型基于语义混合多层模型图 3 实验结果4 结 语本文针