基于微信公众号文章的失真健康信息识别方法比较与优化_王雷.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 1.94 MB
约9页
2023-05-14
收藏
评论
点赞(0)
海报
举报

情报学报2023年2月第42卷第2期JournaloftheChinaSocietyforScientificandTechnicalInformation,Feb.2023,42(2):127-135基于微信公众号文章的失真健康信息识别方法比较与优化王雷1，宋士杰2，朱庆华1（1.南京大学信息管理学院，南京210023；2.河海大学商学院，南京211000）摘要近年来，大量失真健康信息以微信公众号文章的方式在社交平台上广为传播，严重影响了用户对健康知识的获取和利用健康信息做医疗决策的效果。为了抑制失真健康信息的传播，有必要对失真健康信息进行自动化的识别与检测。本文以科普中国、丁香医生等公众号发布的健康类文章和经过辟谣的健康类文章为样本，通过分词、去停用词、语法特征提取和文本分类等步骤对失真健康信息进行识别，并通过分类准确率、精确率、召回率、训练时间等性能指标选出效果最佳的分类器。另外，针对文本分类中“一词多义”和“多词一义”的问题，本文通过LDA（latentDirichletallocation）主题分析提取文本的语义特征，进而提出一种“语法+语义”的特征提取方法，经过实验验证，各性能指标比基于语义的特征提取方法以及以往相关模型都有了一定的提升。本文为微信公众号文章中失真健康信息的识别提出了一种新的方法和工具，有利于对失真健康信息开展进一步的监测和治理。关键词失真健康信息；语法特征；语义特征；LDA主题分析；算法评价；算法改进ComparisonandImprovementofHealthMisinformationIdentificationMethodsinWeChatOfficialAccountArticlesWangLei1,SongShijie2andZhuQinghua1(1.SchoolofInformationManagement,NanjingUniversity,Nanjing210023;2.BusinessSchool,HohaiUniversity,Nanjing211000)Abstract：Recently,theproliferationofhealthmisinformationinWeChatofficialaccountarticleshasimpactedusers’ac‐cesstohealthknowledgeanddecreasedtheirabilitytomakeinformedhealthdecisions.Tosuppressthedisseminationofhealthmisinformation,itisnecessarytostudymethodsofautomaticallyidentifyinganddetectinghealthmisinformation.Thisstudyusessamplesfromtwosources:healtharticlespublishedbyauthorityaccounts(e.g.,“ScienceChina,”“DingXiangDoctor,”andothergovernmentalaccounts)andarticlescontaininghealthmisinformationthathavebeenlabeled.Healthmisinformationisidentifiedthroughthestepsofwordsegmentation,stopwordremoval,syntaxfeatureextraction,andtextcl...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容