温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
EMD
XGBoost
组合
门诊
预测
研究
分析
陈娜
,研究与设计微型电脑应用 年第 卷第期作者简介:陈娜(),女,硕士,会计师,研究方向为预算管理、财务分析、成本核算;郁晓晨(),女,硕士,初级会计师,研究方向为医院成本管控、经济运行分析、医保与物价政策研究与管理。文章编号:()与 组合算法对门诊量预测的研究与分析陈娜,郁晓晨(上海市第六人民医院,财务处,上海 )摘要:利用 年上海某医院历史门诊量构建数据模型,预测一周日平均和一月日平均门诊量,提出用 组合算法在处理日门诊量预测和周门诊量预测。结果表明,该算法优于单 算法。医院门诊量是医院管理涉及的各种要素中最重要的因素之一,是否能够精确的预测门诊量,对医院的医疗资源配置有着重要的影响。由于医院门诊量是一个非线性时间序列,本文首先利用经验模态分解()对门诊量序列进行平稳化处理,然后在此基础上增加温度等外部环境因素特征,结合 算法对门诊量进行预测。实验结果表明,本文提出的 组合算法不仅有着较好的预测精度,并且相较于以往的算法,进一步将预测的时间精确到日,效果明显优于单 算法。关键词:门诊量预测;时间序列;中图分类号:文献标志码:,(,):,(),:;引言在医院的日常管理中,门诊量无疑是重要的影响要素之一,在一定程度上反映了医院的规模、医疗水平。因此,若能正确的预测门诊量,提前做好医生、护士的调控分配,不仅可以很好的提高医院的工作效率,也可以大幅度提升病人的医疗体验感。本文以给医院管理者提供决策支持为目的,对医院门诊量进行预测,为医疗卫生资源的合理配置提供依据。传统的门诊量预测通常使用灰色模型、差分整合移动平均自回归模型()等算法,或者将 模型与其他模型进行简单的组合,但是时间颗粒度较粗(通常为周、月、季度或年),预测效果仍有提升空间。本文考虑到医院的门诊量有着明显的时间特征,首先将其时间特征纳入考虑范畴,通过历史门诊量可以发现门诊量数据并不平稳,尤其是以天为单位的门诊量,波动尤为剧烈,因此我们利用对门诊量序列进行分解。以往结合的组合算法一般只考虑了时间序列的特征,并未考虑外部因素。一些外部特征与门诊量可能存在一定程度的相关性,因此在本文中,我们同时考虑了门诊量也受到天气、温度等外部特征的影响,提出了分解和 的组合算法,利用上海某医院门诊情况来构建门诊量预测模型,分别预测未来天、天、天的门诊量之和。数据与方法 数据来源本文门诊数据来源于上海某医院 年月至 年月门诊报表,部分数据见表。,研究与设计微型电脑应用 年第 卷第期表上海某医院部分门诊量数据日期门诊量人次日期门诊量人次日期门诊量人次 本文天气数据来源于互联网,根据该医院所在区域检索历史天气情况,简单处理后部分数据见表。表上海某地区部分天气数据日期平均气温日期平均气温日期平均气温 相关技术 经验模态分解()经验模态分解()是由黄锷等提出的一种创造性的、新型自适应信号时频处理方法。基于该方法来处理非平稳非线性序列有着优良的数值效果,目前已经在地球物理学领域、生物医学领域、结构分析领域、设备诊断领域、成像领域等得到应用。分解方法基于以下假设条件:数据至少有两个极值,一个最大值和一个最小值;数据局部时域特性由极值点间的时间尺度唯一确定;如果数据没有极值点但有拐点,则可通过对数据微分一次或多次求得极值,然后再通过积分获得分解结果。设有时间序列,分解可以将非线性、非平稳的数据序列分解为多个平稳单一的序列,即,其中为本征模函数。本征模函数必须满足以下两个条件:极值和过零点的数目必须相等,或者至多差一个;在任意数据点,局部最大值的包络和局部最小值的包络的平均必须为零。时间序列的分解过程如下。设有时间序列(),分解可以将非线性、非平稳的数据序列()分解为多个平稳单一的序列,即()(),其中 ()为本征模函数。本征模函数必须满足以下两个条件:极值和过零点的数目必须相等,或者至多差一个;在任意数据点,局部最大值的包络和局部最小值的包络的平均必须为零。时间序列()的分解过程如下:()确定时间序列()的所有局部极值点,分别用曲线连接所有的极大值点和极小值点,如此得到时间序列的上下包络线,令上下包络线的平局值为();()令()()(),对()重复上述步骤,直至满足本征模函数的条件,即()是一个基本模式分量,这时得到新的序列()()();()对新的时间序列()重复上述步骤,分别提取出个基本模式分量。此时,时间序列()变为一个单调序列,不包含任何模式的信息,即为原始序列的余项,()。至此,原始 时 间 序 列 被 分 解 为 多 个 分 量 和 一 个 残 差序列。.算法 是一种在 框架下实现的的机器学习算法,由于其出色的效率,被数据科学家广泛 的使用。对于 给 定 有个 特 征、大 小 为的 数 据 集,y()(,y),树型集成模型(即第个实例的预测值)可以表示为?y()(),()其中,(),(:,),表示树的数量,表示将实例映射到相应的叶子节点上的树的结构,表示树的叶子数量,表示叶子节点的分数。我们最小化以下正则化目标函数来得到模型需要的函数:()?y,y()()()其中,(),是用来衡量真实值y和预测值?y之间的误差函数,是用来衡量模型复杂性的惩罚项。然而,式中包含函数作为参数,因此很难在欧几里得空间中用传统优化方法来求解。我们设?y为第次迭代时第个实例的预测值,需要添加以最小化以下目标:()y,?y()()()()即式()表示第个实例在第次迭代时的误差函数。根据式(),这就意味着需要增加最能改进模型的。将式()泰勒展开得到:()y,?y()()()()()()这里,?y()y,?y()()及y()y,?y()()分别是y,?y()()一 阶 和 二 阶导数。移除常数项,我 们 可 以得到:?()()()()()令(),表示在叶子节点上的实例集合。因此式()可以变换为 ,研究与设计微型电脑应用 年第 卷第期?()()()()()()如果固定了树的结构,那么叶子节点的最优权重为()带入目标函数可以得到最优解:?()()()()式()可以用来衡量树结构好坏的指标。一般来说,枚举所有的树结构是不可能的,因此这里用一个贪婪算法,它从一个叶子开始,迭代地向树中添加分支。设和分别是分支后左节点和右节点的集合,且,则一次分支后误差函数为 ()()()()根据式(),利用上式作为分支的评价指标,不断重复分支,即得到最终的树。评价指标本文采用两种不同的指标对预测模型进行评价,分别为均方根误差()以 及 平均绝 对 百分 比 误差()。和 越小,说明模型效果越好。和 的计算式如下:(?yy)?yyy ()其中,?y为预测值,y为真实值,为样本数量。特征选择本文的特征选择从天气特征以及时间特征两个方面出发,具体如下。()天气特征:天气的变化会影响身体状况,因此可能对医院门诊量也有影响。若温度骤降会引起感冒发烧的病人增多,或从冬天过渡到春天时,温度上升,各种植物和粉尘增多,会引起过敏的病人增多,因此医院的门诊量也会相对应的有所上升。()时间特征:从已有的数据可以看出,门诊量存在某些周期性,因此本文也相应的构建了时间特征,例如是一周内第几天、前一天门诊量等。预测模型 模型原理时间序列问题的预测,其主要思想是利用历史时序数据进行统计分析,找到变化规律,通过建模将该规律应用到预测未来上。对于门诊量的预测,不仅在一定程度上遵循时间变化规律,并且还受到天气、温度等因素的影响,因此,本文将预测门诊量的特征分为两个部分:一是将历史时间特征进行 分解,得到包含各个时间尺度特征的基本模式分量;二是包含天气等因素的非时间特征,然后对各分量结合非时间特征利用 算法进行建模,各分量预测结果加和得到最终门诊量的预测值,如图所示。图 组合算法示意图 建模过程设门诊量 时 间 序 列 为(),对序列()进行分解,共得到个分量 ,和一个残差序列,对个分量和残差序列分别建立 模型进行预测,即产生个 模型,然后将预测结果相加,即为最终门诊量的预测值。在进行预测前,因为各个特征的量纲不同,因此需要先进行标准化,使模型预测更加合理、准确。预测时,将每一个分量 ,作为一个特征,用前天来预测天(或、天);另外,由于门诊量还受到天气等非时间因素的影响,因此在建立模型时,也将这些作为特征考虑。模型结果及分析我们对门诊量时间序列进行分解,数据为从 年每日门诊量,分解结果如图所示。图部分门诊量数据分解示意图 为原始门诊量时间序列,到 为原始序列被分为的个分量,由上图可以看出其波动性逐渐减弱,平 ,研究与设计微型电脑应用 年第 卷第期稳性逐渐增强,为趋势线。本文预测了三种情形下的 年门诊量:未来天门诊量;未来天门诊量之和;未来 天门诊量之和。从预测结果的 来看,组合算法在第种情况下效果最好,平均 为 ,此 时 为 ,和 最小达到 和 ;从 来看,组合算法在第种情况下效果最好,平均 为 ,此时 为 ,和 最 小 达 到 和 ;综合来看,组合算法更适合在第种情形下运行。当然,若预测一周日平均和一月日平均门诊量,可以看出 有所下降,甚至比预测未来天门诊量表现的更好(分别下降了 和 )。这是因为日门诊量受到外部因素的影响更大,因此波动性也大;而周门诊量与月门诊量从一定程度上削弱了外部因素的影响,它们更加稳定(若因为某些原因前一天的病人比平日较少,但是这部分病人会在第二天或者后面几天来医院),所以平均到每日效果会更好。为了进一步的体现 组合算法的性能,我们还对应的用单 算法作为对照。通过结果对比可以看出,加入了分解后,模型的预测结果得到了显著提高,在三种情形下 分别提高了 、和 ,分别提高了 、和 。这里可以看出,在情形)下 组 合 算法 与 单 算法的差距很小,这也是因为上文所说,天门诊量的波动性较小,而 更善于处理平稳性差的时间序列上。也从侧面说明,组合算法更适合第种情形。综上,组合算法在处理日门诊量预测和周门诊量预测时,优于单 算法。组合算法及单 算法在三种预测情形下的 和 如下图、图所示。图 组合算法与单 算法 对比总结本文提出了一种 的组合预测算法。针对门诊量时间序列,通过 对时间序列进行平稳性处理,再结合 进行预测。相比较传统的利用灰色模型、差图 组合算法与单 算法预测 对比分整合移动平均自回归模型()等,组合预测算法更好的结合了 和 两个算法的优点,在预测时,不仅仅只依据时间特征,并且加入考虑了外部因素,在预测日门诊量时表现的更好,细化了门诊量预测的时间颗粒度,使得模型更加仿真,得到的预测值也更接近于真实值。本文虽然考虑了天气的外部因素,但是在真实情况下,影响门诊量的因素更多,也更为复杂,比如医院的地理位置,区域人口等。加入这些因素,将提高模型的泛化能力。但是,当外部因素增多时,其与时间因素在模型中的权重如何控制是一个难题,若某一方的权重过大,可能会适得其反,使模型结果变差。因此,在门诊量预测的问题上,还有进一步研究的空间。参考文献孔超基于灰色预测模型的门诊量预测:以上海市浦东新区门诊总量为例中国卫生资源,():耿娟 模型在医院门诊量预测中的应用中国卫生统计,():叶明全,胡学钢季节性组合预测模型在医院门诊量中的应用研究计算机工程与设计,():王玖,韩春蕾,栾奕昭组合预测在医院门诊量预测中的应用中国卫生统计,():陈渝,任正军 融合与 神经网络的门诊量预测模型研究软件导刊,():振华,宋汉文经验模式分解方法()研究综述上海市国际工业博览会暨上海市工程与振动科技论坛 ,:,(收稿日期:)