温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
文本
挖掘
网络
健康
信息
特征
情感
分析研究
安徽职业技术学院学报JOURNAL OF ANHUI VOCATIONAL AND TECHNICAL COLLEGE第22卷第1期2023年3月Vol.22 No.1Mar.2023收稿日期:20221209基金项目:安徽省哲学社会科学规划项目“在线医疗社区中个人健康信息保护机制构建”(项目编号:AHSKQ2016D78);安徽工商职业学院教学研究项目“后疫情时代高校双线混融教学模式的实施与探索”(项目编号:2021xjjy21)作者简介:刘帅(1981),女,汉族,安徽安庆人,律师,讲师,研究方向:信息法学、信息资源管理。基于文本挖掘的网络伪健康信息特征及情感分析研究刘帅1,2,钱鹏博3,孙静4,严子芊5(1.安徽工商职业学院管理学院,安徽合肥231131;2.北京德恒(合肥)律师事务所,安徽合肥230031;3.复旦大学文献信息中心,上海200433;4.安徽大学管理学院,安徽合肥230601;5.上海大学管理学院,上海200444)摘要:本研究对存在网络伪健康信息的文章进行分析,利用python爬取微博及微信伪健康文章,采用LDA(隐含狄利克雷分布)主题模型和情感分析,挖掘其主题特征及不同情感倾向,最后基于健康信息质量评价体系构建伪健康文本主题模型,挖掘伪健康信息的文本和情感态度特征及两者潜在关联,为建立健康信息自动过滤机制、改善网络健康信息环境,提升健康信息质量提供有益参考。关键词:伪健康信息;LDA主题模型;情感分析中图分类号:G203文献标识码:A文章编号:16729536(2023)01004607Abstract:This study analyzes the articles with online pseudo-health information,and extracts theirtheme characteristics and different emotional tendencies by using Python to crawl pseudo-health articles inWeibo and WeChat,as well as using LDA theme model and sentiment analyses.It constructs a pseudo-health text theme model based on the health information quality evaluation system and extracts the pseudo-health information texts,the emotional attitude characteristics and the relations between them.It also providessome beneficial reference for the establishment of an automatic filtering mechanism for health information,and the improvement of the health online information environment and the quality of health information.Key words:pseudo health information;LDA topic model;sentiment analysis随着“互联网+”时代的到来,网络已成为大众了解健康信息的主要渠道,而社交平台的强关系性、匿名性以及信息传播的快速性,客观上为伪健康信息的传播提供了有利条件,伪健康信息也因此成为部分社交媒体账号吸引流量工具。中国互联网络信息中心在2022年9月发布的第50次中国互联网络发展状况统计报告 显示1,老年用户对健康医疗类科普知识的需求不断上升,然而该群体的个体认知的不确定性较高,部分伪健康信息在中老年群体中易造成较大的负面影响。因此,需要从文本语境中挖掘伪健康信息的特征,构建伪健康信息文本特征模型,以提高用户对伪健康信息的甄别能力。基于以上研究背景,本文尝试结合LDA主题模型和情感分析算法,对于伪健康信息文本内容的深层次语义主题特征和情感特征进行分析,以期为中老年群体快速识别伪健康信息、构建伪健康信息自动过滤机制、促进网络环境健康发展提供价值参考。1 相关概念及研究基础1.1 健康信息与伪健康信息对于健康信息尚未有统一的定义,早期研究从功能性的角度考虑,认为健康信息是用于消除用户对自身或他人对疾病不确定性因素的知识、观念与行为模式2。除了满足用户需求,健康信息的定义还要从内容上加以约束,有学者提出健康信息是与人类身心健康相关的信息3。美国医学图书馆官网则将健康信息的功能性与内容相结合进行定义,认为健康信息指与健康信息需求群体相关的健康和医学方面的资讯4,强调信息与用户的对应性。由于本文研究背景为网络环境,故将健康信息定义为人们通过手机与互联网(统称为网络)获取与自身或他人身心健康相关的信息5。伪健康信息的定义同样较为模糊,研究主要从信息无用有害6、被医学共同体判定为非真7等角度对其进行定义。结合以上学者的研究,本文将伪健康信息定义为网络中违背科学规律与逻辑,且被当下医学共同体根据现有知识与共识判定为非真的健康信息。1.2 健康信息质量评价体系健康信息质量评价是一个较为复杂的问题,目前国内研究学者从不同的角度提出了不同的评价标准。陈忆金等认为对健康信息质量评价可以从可靠性、相关性、时效性三个维度出发8;陆泉等学者则将其划分为信息内容、信息源和传播媒介三个维度9;魏银珍等对信息质量评价的维度进行了补充,认为健康信息来源也是其质量的评判标准之一10;王文韬等则从伪健康信息的角度出发,指出质量差的健康信息特征为表达不清、夸张诱导、无数据支持11。本文参考以上学者的研究成果,将健康信息质量评价划分为可靠性、准确性、合理性、信息来源支持四个维度,其中可靠性一般指健康信息内容的真实性,准确性包括时效性、全面性和针对性,合理性包括公正性、客观性、一致性,信息来源支持包括信息资源的来源和渠道的权威性和影响力。1.3 伪健康信息传播及特征研究目前国内外对伪健康信息研究的传播途径、对象、文本特征等进行了较多的研究,在传播途径与影响方面,Dinh等发现社交媒体上的信息传播与病毒传播在扩散模式上具有一定的相似性12,可见伪健康信息在社交媒体上的传播可能会造成不实信息的影响范围扩大;在传播对象方面,研究发现,随着年龄的增长,用户健康信息甄别能力下降13,不同性别对于健康信息主题的关注也有所不同14;在文本特征与结构方面,研究主要从谣言的内容分布、叙事结构、主题场景以及标题特征15等方面对伪健康谣言进行分析。以上研究成果主要从宏观角度和微观角度围绕伪健康信息的传播途径和文本特征进行分析,总结了伪健康信息的传播过程与模式以及用户特征,发现中老年群体是伪健康信息的主要消费者且该类群体缺乏甄别能力,因此有必要分析文本主题特征并构建伪健康信息特征列表,以提高用户对伪健康信息的甄别能力,然而现有研究大多仅针对文本内容的主题特征进行分析,而未考虑到文本内容的情感特征对于影响中老年群体甄别伪健康信息的重要性。基于以上方法和研究成果,本文创新性地将文章的情感态度对用户群体的信息行为影响纳入文本主题模型,通过LDA主题聚类分析不同情感下的伪健康信息文本特征以及对应的读者人群,并基于健康信息质量评价体系构建伪健康文本主题模型,总结文本特征和情感特征及两者潜在关联,以帮助有健康信息需求的群体正确辨识伪健康信息。2 研究方法与过程伪健康文本主题模型构建的路径如图 1 所示,共分为5步:采集文本数据;数据预处理,清洗无效数据;情感倾向分析并对文本分类;采用LDA模型训练得到伪健康信息文本主题词分类;综合文本特征与情感特征构建主题模型。刘帅,等:基于文本挖掘的网络伪健康信息特征及情感分析研究47第22卷安徽职业技术学院学报2.1 数据搜集与处理本文在微博平台上以健康相关词汇检索伪健康文章并通过微信小程序查找伪健康文章信息,反向找到对应公众号的相关文章,采用fiddler抓取网络数据包,进行反序列化,解析字段,最后存取数据库,共采集到15076篇伪健康文章,数据包括发布来源、文章标题、文章内容。基于python获取的伪健康文本信息含有大量冗余信息,会对后续的情感分析产生干扰,因此利用去重、压缩、空行删除、停用词去除等操作对初始文本数据集进行降噪。最终得到13758篇文本数据。同时,伪健康信息会涉及医药养生等专用词汇,需在文本数据进行分词处理后,对专用词汇进行人工标注筛选并构建专用词典,为后续的情感模型分析奠定数据基础。2.2 情感分析本文利用自然语言处理(Natural LanguageProcessing)、数据挖掘算法等对文本语言进行情感判断,以分析不同文本的情感极性。本文在python环境中调用百度AI平台的开源情感分析文档将文本的情感极性划分为消极、中性与积极三个层级,便于后面对不同层级情感倾向的文章进行LDA主题模型训练,从而研究不同情感倾向下的文本主题的区别。2.3 LDA主题模型潜在狄利克雷分布模型(Latent Dirichlet Allocation)是一种文本主题模型,能够有效降低文本表示维度,在语义挖掘领域得到了广泛应用。假设采集M条伪健康文本,文本主题个数为K,基于狄利克雷分布(Dirichlet)生成文本主题的词分布以及相应的主题词W。模型不断循环上述过程,直至采样完毕,最终得到每条文本的主题分布及各主题的词分布。由于LDA主题模型是一种无监督模型,需要自主设定主题个数,为了保证模型构建结果的合理性,本文采用困惑度(perplexity)确定文档的最优主题数目。困惑度是用于评估模型优劣的标准,可用于调节主题个数,其计算公式如下:perplexity(D)=exp-d-1Mlogp(wd)d-1MNd(1)式(1)中,wd表示词,p(wd)表示文档中词的概率,Nd表示文档数量,D 表示文档中所有词的集合。使用困惑度进行评估时,主题越多,困惑度数值会逐渐下降;而主题数越多,LDA模型计算成本越大。因此在避免过拟合的情况下,需综合考虑主题数目,选择困惑度最小和主题数最优的数值作为LDA模型训练的最优主题数目。3 情感倾向分析基于中文文本情感词典,计算13758条伪健康文本的标题和内容的情感得分,情感得分取值范围为 0,1,判定积极和消极情感倾向的得分,研究伪健康文本的情感倾向分布,并将积极情感倾向文本和消极情感倾向文本区分开,分别进行LDA主题建模。根据计算结果可以发现,伪健康文本情感态度倾向两极化差异明显,伪健康文本在标题上积极情感和消极情感占比相同(消极情感占比48%,积极情感占比48%),在内容上积极图1伪健康文本主题模型构建路径48情感占比较大(积极情感占比86%),结合内容分析初步发现伪健康传播者常利用积极情感倾向的词语掩盖文章的效能不足,且主要针对中老年人等患病比例较大且获取信息渠道有限的群体。4 LDA主题模型分析在完成对文本的情感倾向分类后,分别对每一类文本进行LDA主题聚类,研究不同情感倾向下文本主题特征的差异,对标题和内容的困惑度进行计算确定主题个数,分类标准则依据困惑度计算公式,随后计算不同主题的主题词并根据主题词权重分布选取权重排名前十的主题词进行文本主题分析。4.1 消极情感倾向的伪健康文本分析本文根据困惑度公式,分别计算出消极情感倾向下的文本标题和文本内容,不同主题个数的困惑度数值,计算结果显示消极情感文本标题的最佳分类主题数为3个,消极情感文本内容的最佳分类主题数为7。结合最佳主题词数,筛选对文本内容描述价值最高的主题词作为关键主题词,再将每个话题下文本内容及其关键词进行汇总,具体见表1,消极情感标题内容主要与医生、癌症有关,该类标题主要从专业人员(医生、教授等)角度出发,为读者提供专业性较强的健康养生建议,并利用负面词汇引起读者焦虑、恐慌等情绪,促使