分享
多模型集成的突发传染病预测与可视化平台_刘威.pdf
下载文档

ID:2556414

大小:810.76KB

页数:5页

格式:PDF

时间:2023-07-12

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
模型 集成 突发 传染病 预测 可视化 平台 刘威
第 39 卷 第 7 期 福 建 电 脑 Vol.39 No.7 2023 年 7 月 Journal of Fujian Computer Jul.2023 本文得到国家级大学生创新创业训练计划(No.202210566024)资助。刘威,男,2002年生,主要研究领域为深度学习、计算机视觉。E-mail:。蒋林根,男,2001年生,主要研究领域为人机交互。E-mail:。余应淮(通信作者),男,1981年生,主要研究领域为数字图像处理、计算机视觉。E-mail:。多模型集成的突发传染病预测与可视化平台 刘威 蒋林根 余应淮 (广东海洋大学数学与计算机学院 广东 湛江 524088)摘 要 为了给各级政府及时应对突发传染病提供一个指导的方案,本文使用了一种改良易感-感染型+长短期记忆网络+自然语言处理的模型对疫情进行预测。模型应用于猴痘感染数据集时,取得了很好的效果,平均绝对百分比误差为 21.23%,平均绝对误差为 88.03。此外,借助词频-逆文件频率算法和双向长短时神经记忆网络算法,实现了热词云、情感分析等功能。实验结果显示,本文提出的系统能够更准确地分析病毒的传播规律和发展趋势,对相关舆论、新闻等民间信息更敏感,为预测未来突发传染病的传播规律和发展趋势提供了有效的方法。关键词 多模型;可视化系统;突发传染病;预测模型;自然语言处理 中图法分类号 TP31 DOI:10.16707/ki.fjpc.2023.07.018 Multi-model Integrated Sudden Infectious Disease Prediction and Visualization Platform LIU Wei,JIANG Lingen,YU Yinghuai(College of Mathematics and Computer Science,Guangdong Ocean University,Zhanjiang,China,524088)Abstract In order to provide a guiding plan for governments at all levels to respond to sudden infectious diseases in a timely manner,this paper uses an improved susceptible-infected+long short-term memory network+natural language processing model to predict the epidemic situation.When the model was applied to the data set of monkeypox infection,good results were achieved,with an average absolute percentage error of 21.23%and a mean absolute error of 88.03.In addition,with the help of word frequency inverse file frequency algorithm and bidirectional long short term neural memory network algorithm,functions such as hot word cloud and sentiment analysis have been achieved.The experimental results show that the system proposed in this article can more accurately analyze the transmission patterns and development trends of viruses,and is more sensitive to relevant public opinion,news,and other folk information.It provides an effective method for predicting the transmission patterns and development trends of future sudden infectious diseases.Keywords Multi-model;Visualization;Sudden Infectious Disease;Forecasting Model;Natural Language Processing 1 引言 突发传染病往往是在一个地区或者全球范围内,以往未出现或者极少见的传染性疾病在短时间内快速蔓延。突发传染病带来的病死率高、经济损失严重、引发社会恐慌、医疗资源短缺、经济损失严重等问题。当前,市面上已经存在许多诸如新冠肺炎疫情全球预测系统的可视化系统1。这些系统的底层几乎 使 用 的 都 是 易 感-感 染-恢 复(Susceptible Infected-Recovered,SIR)、易感-暴露-感染-恢复90 刘威等:多模型集成的突发传染病预测与可视化平台 第 7 期(SusceptibleExposed-Infected-Recovered,SEIR)这类传统的流行病学模型。传统的流行病学模型根据传播规律,预测病患感染人数和传播趋势。但是,这些模型的感染率是固定的,不会随着疫情的发展态势进行“动态”改变。在传染病发展过程中,政府出台的防控性政策、居民的防控意识强化、舆论等都会影响到传播率,仅靠传播数据不足以实现动态的预测。此外,当前系统的可视化系统,面对数据不准确、互动性差、可扩展性低的缺点也亟需解决。基于以上问题,本文设计了一个多模型集成的突发传染病预测与可视化平台。将带有能够结合社会舆论、新闻报道、政府政策的自然语言处理(Natural Language Processing,NLP)模型以及关注 感 染 率 的 改 良 易 感-感 染(Improved Susceptible-Infected,ISI)模型结合到长短期记忆网络(Long Short-Term Memory,LSTM)模型中,更准确、更具鲁棒性地对感染数据进行预测。同时,面对社会恐慌,系统推出关键词云服务,快速概括当下信息,对相关的舆情进行管控。系统结合地图,展示地图型的关键词云,更加清晰地呈现各个地区之间的差异和变化。2 架构概述 平台采用浏览器服务器(Browser/Server,B/S)这种分布性强、可维护性好、可扩展性强、工程费用低的架构进行设计。总体架构分为数据获取层、数据模型层、数据承载层和数据展示层四大模块,如图 1 所示。第一层架构为数据获取层,主要为系统提供最新数据。系统通过定时脚本,定时抓取国家卫生健康委员会、新浪微博、Bilibili 评论以及今日头条的数据。爬取的数据类型有实时感染数据、评论数据、新闻标题及内容等。数据存储采用 PolarDB 结合SQL Server 数据库的模式,95%存储在云原生数据库上,剩下 5%则部署在本地。云原生数据库在成本、灵活度、安全、技术进化层面都优于传统数据库系统2。其次,使用云数据库可以更加贴合 5G时代的计算场景,并在今后结合云计算实现更多扩展功能。数据模型层为多模型集成的突发传染病预测与可视化平台的核心。它主要为数据预测、文本分析、数据聚类、热词云等模块的实现提供算法支持。系统使用基于 ISI+LSTM+NLP 的预测模型实现对突发传染病的感染情况的预测3。2023 年 福 建 电 脑 91 图 1 系统架构图 文本分析模块,使用 TF-IDF 算法、双向长短时神经记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)、K-Means 聚类算法提取文本关键信息。各模块模型的选择和具体细节在模块 3中阐述。数据承载层使用地理信息系统和数据渲染上优秀的接口进行实现,主要是三大工具:Cesium 框架、ArcGISAPI 和 ECharts。Cesium 是一种轻量级开源 WebGIS 开发框架,并且支持 Web 图形库的硬件加速,使其无须安装插件就能够在支持最新HTML5 的浏览器上4。除了使用 Cesium 外,对于一些特殊需求,使用 ArcGISAPI 实现。ArcGIS 作为一款领先的地理信息系统软件平台,在数据处理、地图制作、空间分析和数据共享上,能够弥补Cesium 带来的不足。ArcGIS 提供了强大的地图制作工具,可以创建美观且易于理解的地图。用户可以自定义地图符号、标注和比例尺等内容,应用到突发传染病的传播路径和地点上,可以实现直观的可视化效果。ECharts 则用来展示统计图表、时间序列数据等简单数据。最上层则为数据展示层,展示“传播数据可视化”、“地图数据可视化”、“语料分析”、“传播网络可视化”功能。系统根据人工智能模型,对特定的传染病进行预测。同时,结合疫情地图、统计图表等方式将数据进行展示。系统爬取新浪微博、Bilibili评论、今日头条数据,并输入语料分析模块,对实时热点进行热词云展示、情感分析、主题抽取等,并通过舆情热度评价指标体系,实现舆情即使管控。张浩结合国内现状,指出了掌握重点人员轨迹在疫情防控上有着举足轻重的地位5。因此,系统提供病患轨迹查询功能,通过追踪病例,帮助决策者筛查、追踪和寻找可疑病例。3 模型细节 3.1 预测模型 当发生大规模突发传染病时,人们往往会利用一些现有的方法对传染病的发展趋势进行分析预测,并将分析的结果作为决策的依据。目前使用最广泛的模型有 SI、SIR 和 SEIR 模型。在 2019 年新冠肺炎爆发时,SEIR 模型被中国政府广泛使用,在武汉疫情预测上达到良好的效果6。传统流行病学模型基于传染的特点而构建,通过模拟传播,进而预测流行病传播趋势和发展态势。但是,这些模型往往基于固定的传染率,在传播的过程中,传染率不会随着时间的变化而改变。基于 SEIR 模型的系统是按照传播时间区间来确定感染率的,是基于人为选择,而非“自动”,因此具有局限性。“非自动”的原因在于外部条件是不断改变的。对于政府而言,面对突发的传染病,往往会采取疫情防控措施(减小人流传播、医疗救助、宣传危害等)来遏制传染病的传播。对于居民而言,刚爆发时进行的防护措施没有爆发一段时间后进行的防护措施强。这些因素都使得传染病模型必须趋于多元化,需要具有很好的泛化能力,而非简单、单一因素的预测。针对这一问题,Nanning Zheng 等人提出了一种混合人工智能4。它能将感染率结合舆情,预测新增的感染人数。这种方法能够结合政府措施、居民情绪以及过去感染的影响,动态更新感染率,从而进一步提升预测的准确率。最终的模型是 ISI 模型、LSTM 和 NLP 模型的结合体。ISI 用于提取过去感染数据的特征,NLP 模型评估感染措施、民间新闻以及评论对疫情的影响,LSTM 模型综合上述结果,模拟现实场景,预测最新感染数据。模型的架构如图 2。为了验证模型在突发传染病上的扩展性,将模型重新在猴痘疫情数据集(来自世界卫生组织以及国外媒体数据)上进行训练和预测7-8,结果如图 3所示。传统的 SEIR 模型由于感染率、传播率不会根据实际情况真实改变,导致感染趋势始终不变。而对于 ISI+LSTM 模型来说,考虑到过去 10 天内感染率对当前感染率的影响,但还是无法“感受”现实中居民预防意识强化、政府防控措施的影响。92 刘威等:多模型集成的突发传染病预测与可视化平台 第 7 期 图 2 ISI+LSTM+NLP 模型图 图 3 各模型在猴痘数据集上的预测结果 在 ISI+LSTM 模型中加入 NLP 后,模型能够理解一些政府的防控措施,模型的平稳性和泛化能力更强。比较结果采用平均绝对误差(Mean

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开