温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
监督
热点话题
发现
研究
本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)基于无监督的热点话题发现研究闻彬1,熊飞2,陈薇3(1.湖北轻工职业技术学院信息工程学院,湖北 武汉 430070;2.光谷第十一小学,湖北 武汉 430070;3.华西证券股份有限公司,四川 成都 610095)摘要:高校“百度贴吧”经常会有用户发表一些讨论帖,这些信息对于学校来说是非常有用的。但是未经处理的信息无法实时给当局者提供帮助。因此,文章提出一种利用自然语言处理方法获取“贴吧”信息,并实时发现热点话题的方法。本文首先获取网络文本信息,对文本进行预处理,包括分词、去除停用词,再计算文本的TF-IDF值,最后利用无监督学习方法(K-means)对文本进行聚类,从而获取热点话题。从实验结果中可以看出,本方法可以有效地发现“贴吧”中的热点话题。关键词:自然语言处理;热点话题;机器学习;K-means中图分类号:TP391文献标识码:A文章编号:1009-3044(2022)35-0016-03开放科学(资源服务)标识码(OSID):1 概述众所周知,互联网已经成为当前人们日常获取信息的主要途径。基于此,人们也乐衷于在互联网上发表自己的看法和观点。但是绝大部分信息可能是没有太大意义的,需要过滤掉不太重要的信息,并从中挖掘出有意义的信息。热点话题发现就是在此背景下应运而生,并引起了广泛的关注。热点话题发现的目的是在海量的数据信息中,找到引起大家共鸣、为大家津津乐道的信息,为当局或者管理者提供实时的情报,也为舆情监控和观点抽取等提供支持。2 研究现状话题发现(Topic Detection)1是指分析大量语料,在无需人工监督的情况发现文本中的热点话题。话题发现常用的方法主要有三类:基于聚类的、基于主题模型和基于词共现的方法。Xie2等人针对微博信息,首先提出用句子嵌入法来表示微博文本,然后再提取微博子主题,最后利用K-means3聚类算法对实验结果进行验证,实验结果显示,该算法取得较好的效果。Mathioudakis4等人建立了TwitterMonitor系统,该系统可以通过实时监测微博文本信息,并实时发现热点话题,最后创建图表来对热点话题进行显示。目前的话题发现学习方式主要有监督学习和无监督学习。2.1 有监督学习在监督学习中,通过给出训练数据集,并在数据集中标注类别,训练机器并让其能够识别出是哪个类别,图1为有监督学习流程图。图1 有监督学习流程图有监督学习原理如图2所示。图2 有监督学习图2中,分别对狗类和猫类进行了正确分类以及标注,然后利用机器学习算法进行训练,获取到模型的相应参数,再根据训练好的模型,对新的样本进行判定,如图3所示,以此获取新样本的属性。图3 新对象判定监督学习算法根据任务的不同,又分为了回归分析(Regression)和统计分类(Classification)两大类。回归和分类的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,也称为离散变量预测。回归不是本文的重点,因此在这里不再讲述,本文重点讲述分类算法。以上介收稿日期:2022-08-20作者简介:闻彬(1982),男,湖北武汉人,副教授,硕士,研究方向为自然语言处理,机器学习,深度学习。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.18,No.35,December202216DOI:10.14004/ki.ckt.2022.2173人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)绍的是利用算法对模型训练后,能够将“狗”和“猫”进行分类。常用的分类算法有以下几种:K-近邻算法(K-Nearest Neighbors,KNN)、决策树(Decision Trees)、神经网络分类(Neural Network)、支持向量机(SupportVector Machine,SVM)等。2.2无监督学习无监督学习是指在缺乏足够的先验知识时,让计算机帮助解决这些问题,或者至少提供一部分帮助,因此无监督学习使用的训练集是没有任何标注的,目的是发现数据集本身的聚集性。如图4所示,训练集本身没有任何标注,通过机器学习训练之后,聚类为2大类,同时也无法判定类别。图4 无监督学习常见的无监督学习算法分为聚类和降维两大类,热点发现使用的为聚类算法,本文仅讨论聚类算法。常见的聚类算法有:K-均值(K-means)聚类、层次聚类(Hierarchical Clustering)、基于密度聚类(Mean Shift)等。聚类算法的目的是将相似的样本聚在一起,聚类只需要考虑样本之间的相似度,而不需要考虑类别数目。以K-means为例,该算法用来对n维空间内的样本根据欧式距离远近程度进行聚类。3 方法本文以学校的百度贴吧为讨论对象,从对应的学校的“贴吧”中获取该学校的讨论文本。然后对文本进行处理,从而获得该学校的热点话题。从贴吧中获取到相应文章,分别为Text1,Text2,Text3,.,Textn,热点发现原理如图2所示。图5 热点发现原理3.1 分词对文本进行分词,使用Jieba5进行分词。Jieba的常用三种模式:1)精确模式,尽可能将句子精确切分;2)全模式,快速地将句子中的可能成词的词语都切分出来,不足之处在于无法解决汉语词语的歧义问题;3)搜索引擎模式,在第一种模式的基础上,对句子中出现的长词语再次精确切分,目的是提高召回率,一般适用于搜索引擎中的分词工作。本文采用第一种方式精确模式对文本进行处理。3.2 去除停用词停用词是指那些对句子没有多大意义的词语。在不牺牲句子含义的情况下,可以忽略。因此,需要将这些停用词进行删除,经过整理,共获得1598个停用词,在分词后的文本中删除停用词。3.3计算文本的TF-IDF值首先考虑计算文本之间的相似度。本文使用TF-IDF对文本进行向量化。下面介绍一下TF-IDF的原理。TF-IDF=TF IDF(1)其中:TF=某个词语在文章中的出现次数文章的总词数(2)IDF=log(语料库的文档总数包含该词的文档数+1)(3)TF-IDF用来评估某个词语对于某篇文档或者整个语料库中其中一份文档的重要性。例如,当一个词语在一篇文档中出现频率很高,同时在其他文档中出现频率很低,甚至没有出现,那就认为该词语对于该词语所在的文档具有很强的代表性,适用于对文本进行处理。其中词频(Term Frequency,TF)就是指一个给定的词语在该文本中出现的频率。这个数字是对词数的归一化处理,以防止它偏向长的文本,从而忽略短文本的重要性。逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。3.4 向量空间模型向量空间模型首先是假设文本内的词语之间是不相关的,再利用向量将文本表示成向量模式,充分利用权重信息计算文档之间存在的相关性6。计算出TF-IDF值之后,为防止出现维度过高问题,采用Compressed Sparse Row Format(CSR)压缩稀疏行矩阵进行存储。利用余弦相似度计算文本之间的距离,用向量空间中两个向量的余弦值作为衡量两个个体差异大小,如图6所示。图6 余弦相似度其中,A、B分别为2个文本向量,Dist(A,B)为AB间的距离,cos为相似度,cos值越接近1,就表示夹角越接近0度,也就是两个向量越相似,从而判定文本之间的相似程度similarity。17本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)similarity=cos=ABAB=i=1nAi Bii=1n()Ai2i=1n()Bi2(4)3.5 利用K-means聚类算法进行聚类(1)随机生成K个聚类中心;(2)计算每个样本与每个聚类中心的距离(余弦相似度),离哪个聚类中心近,就划分到哪个聚类中心所属的集合当中;(3)重新计算每个集合的聚类中心;(4)重复2、3步,直到收敛(聚类中心偏移很小,或者计算聚类中心次数超过阈值);(5)返回所有聚类标签。图7 聚类结果表1 实验结果学校湖北轻工职业技术学院武汉理工大学华中师范大学热点(排名前3)专升本、兼职、单招考研、航海、武理考研、调剂、家教从“百度贴吧”下载湖北轻工职业技术学院、武汉理工大学、华中师范大学下载各1000篇文本,利用本文的方法对文本进行处理,处理完后,发现热点话题如表1所示。4 结束语热点话题发现有助于快速获取网络中的当前热点,能够及时为当局提供快速响应的依据。从实验中可以看出,本文提供的方法可以有效且及时发现网络中的热点话题。不仅在贴吧平台可以使用,在有数据来源的情况下,同样可以作为社会舆论的监测工具。但是本实验中数据量有限,实验结果可能与实际情况存在稍许偏差,后期笔者将重点放在增加实验数据和改进实验方法的工作上。参考文献:1 Allan J.Topic Detection and Tracking:Event-based Information OrganizationM.Boston,MA:Springer US,2002.2 Yu X,Bin Z,Yang O.A method based on sentence embeddingsfor the sub-topics detectionJ.Journal of Physics:ConferenceSeries,2019,1168:052004.3 Naik M P,Prajapati H B,Dabhi V K.A survey on semantic document clusteringC/2015 IEEE International Conference onElectrical,Computer and Communication Technologies.Coimbatore,India.IEEE,2015:1-10.4 Mathioudakis M,Koudas N.TwitterMonitor:trend detection overthe twitter streamC/Proceedings of the 2010 ACM SIGMODInternational Conference on Management of data.Indianapolis,Indiana,USA.New York:ACM,2010:1155-1158.5 https:/ 徐云青,徐义峰,李舟军.基于VSM的中文信息检索J.计算机系统应用,2007,16(4):21-23.【通联编辑:唐一东】(上接第15页)提取图像特征,采用以 MobileNet-v3 网络算法为基础,同时优化此算法,并用CNN和特征优选实现对垃圾目标的识别,提高垃圾分类的效率,并得出以下结论:CNN可将大量参数降维成少量参数,将大数据量的图片降维成小数据。通过搭建CNN模型对数据进行光谱特征分析实现初步垃圾分类与制图。MobileNet-V3具备互补搜索技术方式的优点,采用了NetAdapt和platform-aware NAS两个网络结构技术方法,可以在时间和参量的限制下查找网络模块,并微调网络层。本文通过基于CNN算法和MobileNet-V3算法的结合,对垃圾数据集以及图像的处理进行实验,并利用扩充垃圾指数等新特性,以增强输入信号的时效性,并优化了基于CNN的垃圾分析和制图的技术,是今后科研今后的主要工作方向。在将输入的特征维度扩展后,便可深入分析研究网络层次、参数对分类过