分享
基于ARIMA与NNAR模...的中国肺癌预测模型构建研究_苏海霞.pdf
下载文档

ID:498024

大小:1.25MB

页数:7页

格式:PDF

时间:2023-04-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 ARIMA NNAR 中国 肺癌 预测 模型 构建 研究 苏海霞
广西医科大学学报JOURNAL OF GUANGXI MEDICAL UNIVERSITY2023 Jan;40(1)基于ARIMA与NNAR模型的中国肺癌预测模型构建研究苏海霞,杨丹凌,文立,汤梦莹,宋晓坤,黎燕宁(广西医科大学公共卫生学院生物统计学教研室,南宁530021)摘要目的:基于19902019年中国肺癌流行特征数据预测其20202024年的发展趋势,为我国肺癌防控相关策略提供科学参考依据。方法:收集19902019年中国肺癌(性别)发病率、(性别)死亡率等指标,采用年估计百分比变化(EAPC)分析其变化趋势;比较自回归求和移动平均(ARIMA)模型和神经网络自回归(NNAR)两种模型预测精度,并预测20202024年中国肺癌流行趋势。结果:19902019年中国肺癌(性别)发病率、(性别)死亡率、(性别)伤残调整寿命年(DALY)率均随时间呈上升趋势;发病率从 21.72/10 万增长至 58.56/10 万(EAPC 3.72%,P0.001);死亡率从 21.65/10 万增长至 53.23/10 万(EAPC3.37%,P0.001);DALY率从588.07/10万增长至1 204.25/10万(EAPC 2.67%,P0.001)。ARIMA和NNAR的预测值与实际值基本吻合,ARIMA模型MAPE、MAE、RMSE值更小,预测精度更高。采用ARIMA模型预测得到20202024年的发病率为57.67/10万、59.06/10万、60.44/10万、61.83/10万、63.22/10万;死亡率分别为53.26/10万、54.51/10万、55.76/10万、57.02/10万、58.27/10万;DALY率分别为1 191.98/10万、1 211.72/10万、1 231.36/10万、1 250.94/10万、1 270.48/10万。结论:20202024年中国肺癌发病、死亡情况仍将加重,ARIMA模型预测中国肺癌流行特征具有较好的精度和预测性能,对肺癌防控策略的制定有指导意义。关键词肺癌;流行病学;ARIMA模型;NNAR模型中图分类号:R734.2文献标志码:A文章编号:1005-930X(2023)01-0147-07DOI:10.16190/ki.45-1211/r.2023.01.023Study on the construction of lung cancer prediction model in China based on ARIMA andNNAR modelsSu Haixia,Yang Danling,Wen Li,Tang Mengying,Song Xiaokun,Li Yanning.(Department of Biostatistics,School of Public Health,Guangxi Medical University,Nanning 530021,China)AbstractObjective:To provide scientific references for the prevention and control strategies of lung cancer inChina by predicting the development trend of lung cancer in China from 2020 to 2024 based on the epidemiologi-cal data of lung cancer in China from 1990 to 2019.Methods:The annual estimated percentage change(EAPC)was used to analyze the trend of incidence(gender),mortality(gender)and other indexes of lung cancer in Chinafrom 1990 to 2019.The prediction accuracies of ARIMA model and NNAR model were compared to predict theepidemic trend of lung cancer in China from 2020 to 2024.Results:The incidence(gender),mortality(gender)and disability-adjusted life years(DALY)rate of lung cancer in China increased during the time from 1990 to2019.The incidence increased from 21.72/100,000 to 58.56/100,000(EAPC 3.72%,P0.001);the mortality in-creased from 21.65/100,000 to 53.23/100,000(EAPC 3.37%,P0.001);the DALY rate increased from 588.07/100,000 to 1,204.25/100,000(EAPC 2.67%,P0.001).The predicted values ofARIMAand NNAR were basical-ly consistent with the actual values.The MAPE,MAE and RMSE values of ARIMA model were smaller,and theprediction accuracy was higher.The ARIMA model was used to forecast the incidence,the mortality and the DA-LY rate.The predictive incidence rates were 57.67/100,000,59.06/100,000,60.44/100,000,61.83/100,000 and63.22/100,000 from 2020 to 2024,respectively;the predictive mortality rates were 53.26/100,000,54.51/100,000,55.76/100,000,57.02/100,000 and 58.27/100,000,respectively and the predictive DALY rates were 1,191.98/100,000,1,211.72/100,000,1,231.36/100,000,1,250.94/100,000 and 1,270.48/100,000,respectively.Conclusion:The incidence and death rate of lung cancer in Chinawill continue to increase from 2020 to 2024.The通信作者,E-mail:收稿日期:2022-06-27 147调查研究广西医科大学学报2023 Jan;40(1)ARIMA model has good accuracy and predictive performance in predicting the epidemic characteristics of lungcancer in China,which is of guiding significance for the formulation of prevention and control strategies of lungcancer.Keywordslung cancer;epidemiology;ARIMAmodel;NNAR model2016年,中国新增肺癌病例约82.81万例1,新增死亡病例约为65.70万例,发病率及死亡率均为恶性肿瘤的首位。2021年,世界癌症报告中国肺癌死亡率位居世界第一。近年来,随着我国人口老龄化加剧、人群吸烟数量增多、环境污染加重2-3,我国肺癌死亡率和伤残调整寿命年(disability adjustedlife years,DALY)居高不下。肺癌不仅使患者出现肺功能下降、放射性纤维化等身体症状,还产生了沉重的经济负担和较差的生活质量4。由此可知,肺癌已成为我国重大的公共卫生问题之一,有效的预测肺癌发展趋势可为我国肺癌防控策略的制定提出支持,同时对积极防控工作的开展提供理论支持。既往研究多为对我国肺癌流行特征的描述与趋势分析,对肺癌流行病学变化趋势预测的研究较少。自回归求和移动平均(autoregressive integratedmoving average,ARIMA)模型是单变量时间序列数据预测最广泛使用的方法之一,在短期预测方面具有较好的效果5;神经网络自回归(neural networkautoregression,NNAR)模型能有效处理响应变量及其预测器之间的复杂非线性关系,是分析时间序列的重要机器学习之一,具有较好的泛化作用6。在研究传染病7-10、慢性病11-13等趋势预测中常常使用ARIMA模型和NNAR模型相互比较。因此,本研究通过收集 19902019年中国肺癌患病率、死亡率等数据,分析其变化趋势,并分别采用ARIMA 和NNAR 模型进行建模,择优选择模型预测 20202024年中国肺癌流行趋势,为肺癌防治策略制定提供参考。1资料与方法1.1数据来源流行病学数据来源于2019年全球疾病负担研究数据库,包括发病率、性别发病率、死亡率、DALY率等流行病学指标。DALY是从发病到死亡所损失的全部健康寿命年,DALY率为DALY除以相应人口数而得。1.2统计学方法1.2.1中国肺癌流行病学变化趋势使用年估计百分比变化(the estimated annualpercentage change,EAPC)及其 95%CI 来评估变化趋势。EAPC的检验采用t检验,以P0.05为差异有统计学意义。采用Graphpad Prism 8.0.2绘制趋势图。1.2.2ARIMA、NNAR模型的建立与比较利用 19902016 年数据作为训练集,20172019年数据作为测试集构建模型。平均绝对百分误差(MAPE)、平均绝对误差(MAE)及均方根误差(RMSE)评估模型拟合和预测效率。MAPE、MAE、RMSE 值越小,表明数据拟合越好。最后,利用最佳模型预测20202024年中国肺癌发病率、死亡率和DALY率。ARIMA、NNAR模型的建立和比较基于R4.1.0软件实现。1.2.2.1ARIMA模型通过分析预测对象在过去及现在随时间变化所形成的一组观测数据,并揭示数据之间的依存关系和自相关性,进而建立模型,预测其未来发展趋势。ARIMA(p,d,q)是常用的时间序列模型,其中p为自回归(autoregressive model,AR)阶数、d为差分次数、q为移动平移(moving av-erage model,MA)阶数。依据赤池信息准则(Akai-ke information criterion,AIC)、贝 叶 斯 信 息 准 则(Bayesian information criterion,BIC)优先选择最优模型及参数。对模型残差进行白噪声检验,若P0.05,说明模型拟合度好,否则需要重新建模。使用“forecast”、“tseris”包中的“auto.arima”等函数构建ARIMA模型。1.2.2.2NNAR模型基于人工神经网络的模型和基于简单大脑数学模型的预测方法。神经网络可以被认为是按层组织的“神经元”网络。预测变量(或输入)构成底层,预测(或输出)构成顶层。也可能有一个包含“隐藏神经元”的中间层。最简单的网

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开