分享
基于GMM-HMM的话题生...周期状态识别及趋势预测方法_朱恒民.pdf
下载文档

ID:2249150

大小:421.07KB

页数:8页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 GMM HMM 话题 周期 状态 识别 趋势 预测 方法 朱恒民
收稿日期:20220715基金项目:国家自然科学基金项目“基于主路径网络的舆情传播态势预测与干预研究 以社会化媒体中舆情为对象”(项目编号:71874088);国家自然科学基金项目“基于阈值的群体事件互联网舆情传递链路预测及监控机制研究”(项目编号:71704085);江苏省研究生科研与实践创新计划项目“微博舆情话题演化趋势预测研究”(项目编号:KYCX21_0835)。作者简介:朱恒民(1974),男,教授,博士,研究方向:数据挖掘、舆情管理。蔡婷婷(1997),女,硕士研究生,研究方向:舆情传播。魏静(1982),女,教授,博士,研究方向:复杂网络、舆情传播研究。情报理论与前瞻观点基于 GMMHMM 的话题生命周期状态识别及趋势预测方法朱恒民1,2蔡婷婷1魏静1(1 南京邮电大学管理学院,江苏 南京 210003;2 江苏高校哲学社会科学重点研究基地信息产业融合创新与应急管理研究中心,江苏 南京 210003)摘要:目的/意义 本研究对正处于演化过程中的话题进行状态识别及趋势预测,为相关部门了解话题现状,对话题进行有效监管提供科学依据。方法/过程 首先,考虑网民情感,结合话题的新颖度和关注度,构建话题生命周期状态观测指标;其次,基于隐马尔可夫模型(HMM)和高斯混合模型(GMM)的原理,提出话题生命周期状态识别及趋势预测方法;最后,选用微博话题构建数据集,设计对比实验,验证方法的有效性。结果/结论 基于 GMMHMM 的话题状态识别及趋势预测方法的 F1 值和准确率均高于 87%,MAPE 低于 3.5%,相较于 GaussianHMM 和 BP 神经网络具有较大优势。关键词:话题生命周期状态;话题状态识别;话题趋势预测;高斯混合隐马尔可夫模型DOI:103969/jissn10080821202303003中图分类号G202文献标识码A文章编号10080821(2023)03002607Topic Lifecycle Status Identification and TrendPrediction Method Based on GMMHMMZhu Hengmin1,2Cai Tingting1Wei Jing1(1 School of Management,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2 Jiangsu University Philosophy and Social Science Key esearch BaseInformation Industry IntegrationInnovation and Emergency Management esearch Center,Nanjing 210003,China)Abstract:Purpose/Significance In this paper,the status identification and trend prediction of topics in theprocess of evolution are carried out,so as to provide scientific basis for relevant departments to understand the status of top-ics and effectively supervise the topic Method/Process Firstly,considering the emotion of netizens and combining thenovelty and attention of the topic,the observation indexes of the topic lifecycle status were constructed Secondly,based onHidden Markov Model and Gaussian Mixture Model,this paper proposed a method of topic lifecycle status identification andtrend prediction Finally,microblog topics were selected as a dataset and comparative experiments were designed to verifythe effectiveness of the method esults/Conclusion The F1 value and accuracy of topic state identification and trendprediction method based on GMMHMM are both higher than 87%,and MAPE is lower than 3.5%,which has greater ad-vantages compared with GaussianHMM and BP neural networkKey words:topic lifecycle status;topic status identification;topic trend prediction;Gaussian Mixed Hidden Mark-ov Model622023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3网络话题已成为网民发表评论、政府了解民意、监管部门追踪社会热点的重要媒介。同生命体的生命周期类似,话题也有生命周期,也会经历从萌芽到衰亡的各个阶段,反映话题新兴或衰亡等演化状态。因此,识别话题的生命周期状态对于监管部门了解话题现状、掌握发展趋势、监控舆论危机具有重要意义。根据话题生命周期老化理论,话题演化可划分为萌芽、生长、成熟和衰退4 个状态1。为了识别话题生命周期的状态,一些学者提出了描述话题状态的相关指标。Braun T 等2 提出了关于技术主题生命周期的新颖度指标,判断主题是否进入了生命周期的成熟阶段;基于新颖度指标,部分学者新增了一些其他指标来综合判定话题的生命周期状态。Tu Y N 等3 基于老化理论新增发文量指标,结合新颖度指标探测技术主题生命周期阶段;祝娜等4 新增被引量指标,通过自定义生命周期探测表来构建知识主题完整的生命周期演化路径;谭春辉等5 新增支持度指标,通过二维空间映射法判定主题所处的生命周期阶段,从时间与强度两个维度分析主题在各时间片所属的状态。此外,刘自强等基于Callon M 等提出的向心度和密度指标6,采用平面坐标法将科技文献主题划分为 4 个生命周期状态,以描述主题在整个生命周期的演化过程7。另有一些学者通过绘制话题演化曲线来判定话题的生命周期状态。刘东霞等8 绘制专利累计量的 S 曲线,通过曲线走势划分煤炭液化技术主题的生命周期状态;王晰巍等9 利用百度指数曲线图并结合话题事件特点,将微博话题划分为 4 个生命周期状态。上述工作多是针对科技文献,通过回溯一个已经演化完成的话题生命周期过程来划分状态,未能对一个正在演化中的话题进行状态识别。其次,话题在演化过程中总是伴随着网民情绪的变化,它会影响话题传播和发展趋势10,但是上述工作并未将网民情绪纳入话题生命周期状态的判定指标。在识别当前时刻话题状态的基础上,可以进一步预测未来时刻话题状态的演化趋势。已有相关工作多是基于时间序列预测方法,分析话题热度或者强度等流行度指标的演化趋势。岳丽欣等11 采用AIMA 模型预测话题的强度变化趋势;王宁等12 运用灰色模型实现对话题热度趋势的预测;刘勘等13 采用马尔可夫链对话题热度进行预测,并检验了建模方法的有效性;张和平等14 选用百度指数作为话题热度的衡量指标,采用马尔可夫链修正灰色模型的预测结果。然而,仅预测话题流行度等单一指标并不能很好地描述话题状态的演化趋势。Liu F 等15 采用隐马尔可夫模型(Hidden MarkovModel,HMM)试图预测话题状态,对多个话题分别构建 HMM 模型并建立模型库,通过人工判别待预测话题与模型库中已有话题是否相似,从而选择相应模型预测话题未来的状态,但是该方法人工干预工作量较大。此外,话题生命周期状态是循序演变的,相较于预测话题在未来时刻的状态,预测反映话题状态的观测指标趋势更有意义。HMM 作为一种概率统计模型,能考虑时间序列的影响。通过观测指标数据建立概率模型,运用最大似然估计法学习模型参数,用于解决分类和预测等问题1618。Liu F 等15 在预测话题生命周期状态时,假设话题状态指标数据是由随机过程产生的随机变量,采用高斯概率密度函数拟合这些指标数据。然而,单个高斯概率密度函数无法很好地拟合实际应用中的所有变量,于是使用几个高斯概率密度函数的线性组合模拟观测变量1920,即高斯混合模型(Gaussian Mixture Model,GMM)。因此,本文采用 GMM 来拟合话题状态的多重观测指标,并结合 HMM 提出话题状态识别和趋势预测方法。综上所述,现有研究主要是通过回溯话题演化过程来划分话题生命周期状态,鲜有研究引入网民情感指标来描述话题状态,且多数研究是通过预测单一指标来分析话题的演化趋势。因此,本研究对正处于演化中的话题进行状态识别,将网民情感纳入话题状态识别指标,通过预测多个话题指标来更准确地描述话题状态的发展趋势,以期为监管部门识别话题演化状态、揭示话题发展趋势、采取干预措施提供决策支持。1话题生命周期状态指标构建话题状态指标能够量化描述话题生命周期状态特征,反映话题从出现到衰亡的整个演化过程。首722023 年 3 月第 43 卷第 3 期基于 GMMHMM 的话题生命周期状态识别及趋势预测方法wwwxdqbnetMar,2023Vol.43No.3先基于 Gompertz 曲线来划分话题的生命周期状态,然后构建新颖度、关注度和情感度这 3 个话题状态指标,分析指标与演化过程的相关性。1.1话题生命周期状态划分本文基于 Gompertz 曲线将话题生命周期划分为萌芽、生长、成熟和衰退 4 个状态。Gompertz 曲线所描述现象的特点是:初期增长缓慢,之后逐渐加快,当达到一定程度后,增长率又逐渐下降,最后接近一条水平线。它通常用于描述事物的发展由萌芽、成长到饱和的周期过程。考虑到网络话题的传播过程与其较为一致,本文基于 Gompertz 曲线模型2122 对话题的生命周期发展阶段进行模拟,通过微积分计算,确定曲线的 3 个分界点,然后据此划分话题生命周期的 4 个状态阶段。百度指数能够统计并展示话题在生命周期内的用户关注度数据,它是以话题关键词为统计对象,以海量网民在某一时间段的百度搜索量为数据基础,并综合网民的阅读、评论、转发、点赞等行为的数据量,进行加权求和、指数化处理后得出,较为全面地衡量了用户对话题的关注程度。百度指数累计量是一个随时间连续变化的过程,本文对百度指数累计量进行 Gompertz 曲线拟合。首先,假设话题百度指数累计量 y 是时间 t 的函数,其饱和值为 K,增长系数为,初始值为y0。用于描述百度指数累计量增长的微分方程为:dydt=ylnyK(1)求解微分方程得:y=Ky0K()et(2)当 y0K 时,式(2)可表示为:y=Kabt(3)其中,a=y0K,b=e,并且 0a1,0b1。称式(3)为 Gompertz 曲线的标准方程23。为了求解参数 K、a、b,可以对标准方程进行变化,对方程两边取对数可得:ln lnKy()=ln(lna)+tlnb(4)令 Y=ln lnKy(),则式(4)为关于时间 t 的一元线性方程,应用 Excel 软件进行一元线性回归分析,即可得出方程的系数 lnb 和 ln(lna)。当

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开