基于无监督的热点话题发现研究_闻彬.pdfVIP免费

下载本文档

阅读 1
下载 0
格式 pdf
大小 1.5 MB
约3页
2023-05-04
收藏
评论
点赞(0)
海报
举报

本栏目责任编辑：唐一东人工智能ComputerKnowledgeandTechnology电脑知识与技术第18卷第35期(2022年12月)基于无监督的热点话题发现研究闻彬1，熊飞2，陈薇3(1.湖北轻工职业技术学院信息工程学院，湖北武汉430070；2.光谷第十一小学，湖北武汉430070；3.华西证券股份有限公司，四川成都610095)摘要：高校“百度贴吧”经常会有用户发表一些讨论帖，这些信息对于学校来说是非常有用的。但是未经处理的信息无法实时给当局者提供帮助。因此，文章提出一种利用自然语言处理方法获取“贴吧”信息，并实时发现热点话题的方法。本文首先获取网络文本信息，对文本进行预处理，包括分词、去除停用词，再计算文本的TF-IDF值，最后利用无监督学习方法（K-means）对文本进行聚类，从而获取热点话题。从实验结果中可以看出，本方法可以有效地发现“贴吧”中的热点话题。关键词：自然语言处理；热点话题；机器学习；K-means中图分类号：TP391文献标识码：A文章编号：1009-3044(2022)35-0016-03开放科学（资源服务）标识码（OSID）：1概述众所周知，互联网已经成为当前人们日常获取信息的主要途径。基于此，人们也乐衷于在互联网上发表自己的看法和观点。但是绝大部分信息可能是没有太大意义的，需要过滤掉不太重要的信息，并从中挖掘出有意义的信息。热点话题发现就是在此背景下应运而生，并引起了广泛的关注。热点话题发现的目的是在海量的数据信息中，找到引起大家共鸣、为大家津津乐道的信息，为当局或者管理者提供实时的情报，也为舆情监控和观点抽取等提供支持。2研究现状话题发现（TopicDetection）[1]是指分析大量语料，在无需人工监督的情况发现文本中的热点话题。话题发现常用的方法主要有三类：基于聚类的、基于主题模型和基于词共现的方法。Xie[2]等人针对微博信息，首先提出用句子嵌入法来表示微博文本，然后再提取微博子主题，最后利用K-means[3]聚类算法对实验结果进行验证，实验结果显示，该算法取得较好的效果。Mathioudakis[4]等人建立了TwitterMonitor系统，该系统可以通过实时监测微博文本信息，并实时发现热点话题，最后创建图表来对热点话题进行显示。目前的话题发现学习方式主要有监督学习和无监督学习。2.1有监督学习在监督学习中，通过给出训练数据集，并在数据集中标注类别，训练机器并让其能够识别出是哪个类别，图1为有监督学习流程图。图1有监督学习流程图有监督学习原理如图2所示。图2有监督学习图2中，分别对狗类和猫类进行了正确分...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容