温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
公众
文章
失真
健康
信息
识别
方法
比较
优化
王雷
情报学报 2023 年 2 月 第 42 卷 第 2 期Journal of the China Society for Scientific and Technical Information,Feb.2023,42(2):127-135基于微信公众号文章的失真健康信息识别方法比较与优化王雷1,宋士杰2,朱庆华1(1.南京大学信息管理学院,南京 210023;2.河海大学商学院,南京 211000)摘要 近年来,大量失真健康信息以微信公众号文章的方式在社交平台上广为传播,严重影响了用户对健康知识的获取和利用健康信息做医疗决策的效果。为了抑制失真健康信息的传播,有必要对失真健康信息进行自动化的识别与检测。本文以科普中国、丁香医生等公众号发布的健康类文章和经过辟谣的健康类文章为样本,通过分词、去停用词、语法特征提取和文本分类等步骤对失真健康信息进行识别,并通过分类准确率、精确率、召回率、训练时间等性能指标选出效果最佳的分类器。另外,针对文本分类中“一词多义”和“多词一义”的问题,本文通过LDA(latent Dirichlet allocation)主题分析提取文本的语义特征,进而提出一种“语法+语义”的特征提取方法,经过实验验证,各性能指标比基于语义的特征提取方法以及以往相关模型都有了一定的提升。本文为微信公众号文章中失真健康信息的识别提出了一种新的方法和工具,有利于对失真健康信息开展进一步的监测和治理。关键词 失真健康信息;语法特征;语义特征;LDA主题分析;算法评价;算法改进Comparison and Improvement of Health Misinformation Identification Methods in WeChat Official Account ArticlesWang Lei1,Song Shijie2 and Zhu Qinghua1(1.School of Information Management,Nanjing University,Nanjing 210023;2.Business School,Hohai University,Nanjing 211000)Abstract:Recently,the proliferation of health misinformation in WeChat official account articles has impacted users access to health knowledge and decreased their ability to make informed health decisions.To suppress the dissemination of health misinformation,it is necessary to study methods of automatically identifying and detecting health misinformation.This study uses samples from two sources:health articles published by authority accounts(e.g.,“Science China,”“Ding Xiang Doctor,”and other governmental accounts)and articles containing health misinformation that have been labeled.Health misinformation is identified through the steps of word segmentation,stop word removal,syntax feature extraction,and text classification.We selected the best classifier through the comparison of accuracy,precision,recall,training time,and other performance-related indicators.Moreover,to solve the problems of polysemy and synonyms in text classification,this paper used Latent Dirichlet Allocation(LDA)topic analysis to extract the semantic features of the text and then proposed a feature extraction method based on“syntax plus semantics.”The experiments suggest that our proposed new method had better performance over methods based on semantic feature extraction and other prior models.By proposing a 收稿日期:2021-12-23;修回日期:2022-03-14基金项目:国家自然科学基金项目“社交媒体环境下失真健康信息的传播机制与协同治理研究”(72174083);中央高校基本科研业务费人文社科专项“基于消费者视角的社交媒体虚假健康信息纠偏干预研究”(B220201054)。作者简介:王雷,男,1995年生,博士研究生,主要研究方向为健康信息学,E-mail:;宋士杰,男,1989年生,博士,青年副教授,主要研究方向为健康信息学与信息系统;朱庆华,男,1963年生,教授,博士生导师,主要研究方向为健康信息学与用户信息行为。DOI:10.3772/j.issn.1000-0135.2023.02.001第 42 卷情 报 学 报novel method for identifying health misinformation in WeChat official account articles,this study may have practical implications for online health misinformation governance.Key words:health misinformation;syntax features;sematic features;LDA analysis;algorithm evaluation;algorithm development0引 言近年来,社交媒体极大地推动了健康信息产业的发展。利用社交媒体寻求健康信息的用户数量在持续增长,用户在社交媒体上搜寻健康信息的范围涵盖了健康生活方式的一般性建议到疾病治疗的具体方案1。皮尤研究中心最新的调查报告称,约六成互联网用户会通过微信、微博和 Twitter等社交媒体在线搜索各种健康问题2。另外,发展中国家在线搜索健康信息的用户比例很大,在中国,这一比例达到了 79%3。然而,社交媒体中同时存在很多未被证实的健康信息,学者将这种没有证据支持的且与事实相悖的健康信息称作失真健康信息(health misinformation)4。社交媒体的开放性和高效性促进了失真健康信息的传播,普通用户可能在无意中接触并扩散失真健康信息。轻信失真健康信息一方面可能导致用户的经济利益和身体健康受到损害,甚至危及生命;另一方面可能引起用户对正规医疗资源的不信任,加剧目前已较为尖锐的医患矛盾。因此,对社交媒体上的失真健康信息进行识别,对于缺乏医学专业知识的普通用户来说具有重要的现实意义。另外,周晓英等5认为我国应急信息管理中应更加注重互联网思维,强调建立和完善信息的监测和预警系统。在社交媒体的失真健康信息管理中,失真健康信息的监测和预警是抑制信息早期扩散的重要一步,而失真健康信息识别则是有效进行信息监测的前提与关键。作为社交媒体上健康信息的主要来源之一,微信公众号文章常常为了增加点击量和出售广告而添加诸多真假难辨的健康类信息,例如“只需禁食两天可重启整个人体免疫系统”“适量饮用中国白酒确实防疫”等微信公众号文章屡见不鲜,这些公众号文章中的失真健康信息极大地影响了用户对健康知识的获取和医疗保健的效果,尤其对老年人群体的影响更为显著6-7。对微信公众号健康类文章中的失真健康信息进行识别,有利于从失真健康信息的源头进行干预,也可以抑制失真健康信息的社交网络传播,减少失真健康信息给广大用户带来的危害。另外,裴俊良等8指出,当前政府突发公共卫生事件信息报告制度在信息监测与监控方面对工具与方式的规定尚不明晰,在失真健康信息识别方面存在同样的问题,目前更多依赖于专家和机构进行人工识别,但面对大量且日益增长的健康信息,人工识别显然力不从心。因此,本文选择对微信公众号文章中的失真健康信息自动识别方法进行研究,对健康文本进行分类,并通过多种指标对比选择效果最好的机器学习分类器;另外,将基于 TF-IDF(term frequency-inverse document frequency)的语法特征和基于主题的语义特征相结合进行特征提取,从而对失真健康信息识别模型进行优化,为失真健康信息的监测和识别提供新的工具和思路。1相关研究早期失真信息一般是指错误的、不准确的信息9-10,之后 Nyhan 等11从个体认知的角度对失真信息的定义进行扩展,将失真信息定义为“个体相信尚未得到明确科学证据和专家意见支持的信息”。因此,失真信息概念主要包含两个方面,一方面,它强调客观内容上的错误和不准确,偏离了事物的真实情况;另一方面,从信息接收者的角度,它强调个体认为错误信息在解决特定问题上是有用并且适用的,信息对个体认知产生深远影响。与失真信息相近但不同的概念包括谣言和伪信息,谣言的传播虽然容易造成负面的群体性结果,但由于谣言的时效性较短12,且有被证实的可能,所以对个体产生的深层次影响较为有限;伪信息也叫虚假信息,与失真信息不同的是,伪信息强调故意创造和传播以造成伤害的意图,而失真信息有可能是正确信息在传播过程中由于信息解构和重组、部分信息丢失、外围噪音等因素造成的信息失真13。宋士杰等13主张在健康信息搜寻语境中使用“失真健康信息”一词指代与现有客观科学证据有偏差,对信息接受者主观感知造成误导的各类健康信息。失真健康信息的主要危害在于其误导性,使消费者产生感知偏差,令消费者对信息可信度判断产生失误14。为了了解失真健康信息的特征,前人主要从信息外在特征、信息主题特征、信息情感特征和信息128第 2 期王雷等:基于微信公众号文章的失真健康信息识别方法比较与优化来源特征等几个方面开展了相关研究工作。其中信息外在特征属于词的语法方面的特征。关于信息外在特征的研究,李月琳等15使用开放编码对微信朋友圈转发的健康信息进行定性分析,发现失真健康信息往往出现错别字和语法错误;Liu 等16发现失真健康信息中特定关键词的出现频率很高,比如,宣扬一种无效的癌症治疗方法。信息主题特征和信息情感特征则属于文本语义方面的特征。关于信息情感特征的研究,Porat等17通过开放编码对推特上关于未接种疫苗导致白喉病的帖子进行分析,发现失真健康信息往往表达怀疑情绪;Panatto 等18基于定性和定量结合的方法同样发现了疫苗相关的失真健康信息中的消极情绪,而且往往会将疫苗和不相关的疾病联系在一起。关于信息主题特征的研究,Allem 等19使用机器学习模型研究发现推特上与烟草相关的失真健康信息较多;Al Khaja 等20通过案例研究发现社交媒体上与毒品相关的信息大多为失真健康信息。另外,关于信息来源特征的研究,Li21采用主题分析法对 的医疗索赔和PolitiF 的医疗保健声明信息进行分析,发现失真健康信息的发布者可信度较低;Sic