分享
基于雇员数据的时序模型比较_刘珊珊.pdf
下载文档

ID:2564031

大小:2.26MB

页数:4页

格式:PDF

时间:2023-07-12

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 雇员 数据 时序 模型 比较 刘珊珊
2023.6电脑编程技巧与维护图1密度曲线及直方图1概述研究背景与意义选取了1978年2月1991年4月某地区的月度雇员人数来研究雇员率问题,首先研究其数字特征和分布情况,然后分别建立了季节多元回归模型、三参数指数模型、季节性差分自回归滑动平均模型,消除数据的非平稳性因素,分别进行建模、预测和分析,比较3种预测模型的结果,并给出3种模型的应用建议。2描述性分析选取1978年2月1991年4月某地区的月度雇员人数,单位为千人。数据集度量了在这一段时间内以月度为单位的159个数值。数据来自某地区统计局。2.1数据预处理将时间序列数据转换成矩阵进行基本量的探究,该矩阵维度为14行12列,其中,共有9个缺失值。均值为6 746.526,在1978年2月1991年4月之间,最少雇员人数为597.13万人,最多雇员人数为794.16万人。为保证 完 整 的 自 然 年 周 期,考 虑 填 充 缺 失 值。使用均值差补法补充1978年1月的数据缺失。由于1991年缺失8个月份的数组,数值缺失率高于10%,所以在进行描述性统计分析时选择删除1991年的全部数据,对19781990年全部月份的数据进行描述性统计分析(注:此处有关缺失值的处理均为生成描述性统计分析时对矩阵的操作,后续时间序列分析时依旧采用原始数据,因此该处理并不影响时间序列分析)。2.2数据可视化绘制密度估计函数图,密度曲线基及直方图如图1所示。由密度曲线图可知,雇佣人数最多的数量集中在6 4006 500之间,另一个峰值是7 700左右。绘制雇员人数的时序图,如图2所示。从时序图中可以清晰地看到该时间序列数据非平稳并且有较为明显的趋势、季节性和周期性。因此在后续的分析中基于季节性预测法分别采用季节多元回归模型、三参数Holt-Winter加法模型及SARIMA季节性差分自回归滑动平均模型进行拟合预测。预先对该时间序列进行随机性校验,确定该条时间序列非白噪声序列。3季节多元回归模型3.1模型定阶对序列使用确定性时间序列分析方法,运用加法公作者简介:刘珊珊(1995),女,学士,研究方向为概率论与数理统计。基于雇员数据的时序模型比较刘珊珊(北京市海淀区中关村大街59号,北京215123)摘要:使用某地区的雇员数据进行研究,描述性分析并对多种时序模型展开预测分析,对模型预测效果进行应用对比。具体的研究工作与内容包括:使用描述性分析,展示雇员率的数字特征和分布情况;分别建立季节多元回归模型、三参数指数模型、季节性差分自回归滑动平均模型,并进行预测和分析结果;汇总 3 种模型的预测结果,分析论证了模型的可用性。关键词:就业数据预测;描述性分析;季节多元回归模型;三参数指数模型;季节性差分自回归滑动平均模型图2雇员人数时序图0.00000.00050.00100.00150.00200.00250.0030Density0e-002e-044e-046e-048e-04N=156 Bandwidth=194.75500600065007000750080008500Timematrix()Density60006500700075008000197819801982198419861988199060006500700075008000102DOI:10.16184/prg.2023.06.0352023.6电脑编程技巧与维护式分解数据中不同成分,共分解结果如图3所示。分别提取出趋势、季节和随机波动3种成分,并进行了去除缺失值的处理。为保证所去除的缺失值没有对原序列产生较大影响,并且加法公式分解数列成分有效,将上述3种因素相加与原数列进行对比,对比结果如图4所示。其中浅线为原始数据的时序图,深线为分解3种因素后相加的结果(n步平均法前后各损失了6个月的数据)。可见,缺失值的删除并未对原始数据产生显著性影响。3.2随机波动项的处理在分解完原始数据后,依然采用R中自带的Box.Test函数利用LB统计量对于分解出的随机波动进行白噪声检验,发现P值显著小于0.05,随机波动中依然包含有用信息。因此分别以BIC、AIC两种信息准则进行拟合,其结果相同,为均值是0的AR2模型,接下来再对随机波动项的残差进行检验,由检验结果可知P值显著,表示随机项已经为白噪声。对随机波动项的模型进行参数检验,计算相应的t统计量的P值,发现AR2参数不显著,因此舍去这一项。在对模型进行调整后再次进行残差检验,结果表明有效信息已经提取完毕,残差已经是白噪声。根据调整后的模型进行未来18个周期的随机项波动值进行预测,并保存至数据框,据此在下一个阶段进行整体情况预测,预测结果在几期之后显示均值回归。随机波动项的预测趋势如图5所示。3.3季节因素的处理季节项为一组12个固定的数值,将这组数值存储至数据框,以备后续进行整体的预测。12个季节因素值的曲线如图6所示。3.4趋势项的处理对趋势项建立非线性拟合模型,并进行预测,丢失数据两端的趋势与实际情况差异较大,预期模型如图7所示。对模型进行诊断发现,存在异方差性及异常点,因此对模型进行异方差的加权最小二乘估计,但处理后的模型诊断仍存在异方差性,且残差不服从正态分布,问题没有解决。3.5模型的预测及分析对于趋势项进行预测,并存入数据框,继而将3种预测值项进行加和得出总体的预测。但是,由于趋势项的拟合次数过高,导致拟合后的模型不稳定,对时间因素的影响极大,所以对于长期的预测而言有相当大的误差。因此不再做进一步的分析展示,仅在文末进行对比分析。4三参数 Holt-Winter 加法模型4.1预处理及模型参数估计指数平滑法是根据平滑常数来实现的,的取值在01的区间上,越小越接近0,就表示做预测时对图3季节回归模型分解结果图4季节多元回归模型的拟合结果图5随机波动项的预测趋势图612个季节因素值的曲线图7趋势项的预期模型-60-2020-10001978198019821984198619881990randomseasonaltrendobserved580070006000 7000 800019781980198219841986198819906000650070007500800019781980198219841986198819901992-60-2020-10005024681012600070000501001501032023.6电脑编程技巧与维护19801982198419861988199060006500700075008000近期观测所取的比重较大。指数平滑算法的原理就是利用历史观测数据对未来做预测,的取值决定着对近期和远期观测数据所取的权重。使用该方法拟合得到三参数平滑累加式,如公式(1)所示:xh+i=si+hti+pi-k+(h mod k)(1)其中,平滑值为si=0.589(xi-pi-k)+0.411(si-1+ti-1);趋势项ti=0.209(si-si-1)+0.791ti-1;季节项pi=0.708(xi-si)+0.292pi-k。对上述结果进行参数分析,(0.589)在0.6附近,表示时间序列波动很大,长期趋势变化幅度较大,呈现明显且迅速上升的趋势。gamma(0.708)大于0.7,说明季节性部分的预测值,对近期观测值所取得的权重较大。Holt-Winter三参数模型的拟合数据如图8所示。其中,深线是原始数据,浅线是预测数据。检验结果的准确度,可以用误差项平方和(SSE)的值来判断。这种预测方式的SSE值为163 799.35。4.2模型对未来的预测调用R中的forecast包中的forecast.HoltWinters方法可以做基于这个时间段的预测。想要预测的期数为12,即1991年4月1992年4月的某地区的雇员人数。预测结果有5列数据,第1列Forecast是预测值;第2列、第3列是80%的置信区间的下限和上限;第4列、第5列是95%的置信区间的下限和上限。Holt-Winter三参数模型的预测结果如图9所示。深线是从1991年4月1992年4月的预测值,颜色较深的部分是预测值80%的置信区间,颜色较淡的部分是预测值95%的置信区间。4.3模型的检验对模型的残差进行自相关检验,P值为0.43,样本预测误差的非零相关的可能很小。为确认预测模型不可再改进,查看预测误差是不是以均值0和不变方差按正态分布。Holt-Winter三参数模型残差的直方图及拟合曲线,如图10所示:如图10所示,预测误差基本以0为中心,略向左偏但幅度不大。因此,可以说预测误差是以0为中心呈正态分布的。至此,可以得出结论,简单指数平滑方法足够用来做某地区雇员人数的预测模型,无需改进。并且所得到的80%和95%的预测区间,可以认为是有效的。5SARIMA 季节性差分自回归滑动平均模型5.1数据预处理在这一模型中首先考虑对数据进行差分运算,试图取消数据间的季节性差异。由于雇员数量的数据没有明显的周期,所以尝试不同阶差分,以寻找合适这一数据的差分阶数。最终,对序列进行12阶差分,完全消除序列的季节性。经过12阶差分后的时序图如图11所示。5.2模型的建立利用AIC和BIC准则对已经进行12阶差分的平稳数据进行定阶,根据定阶的结果建立SARIMA(1,1,2)(0,1,1)12的模型,该模型的表达式如公式(2)所示:(1+0.9207B)(1-B)(1-B12)1Xt=(1+1.0941B-0.3202B2)(1+0.7033B12)t(2)图8Holt-Winter三参数模型的拟合数据图9Holt-Winter三参数模型的预测结果图10Holt-Winter三参数模型残差直方图及拟合曲线图11经过12阶差分后的时序图60006500700075008000197819801982198419861988199019920.0000.0050.0100.015-200-1000100200198019821984198619881990-1000501001042023.6电脑编程技巧与维护60006500700075008000197819801982198419861988199019925.3模型的检验首先对前面建立的模型参数进行显著性检验,检验结果显示参数均显著,无需调整模型。对模型残差的Box.test检验,也确认数据中的信息已全部提取,残差中几乎不包含有用信息。同时模型的信噪比为405效果非常好,而R2为0.9975也十分显著。由此可以判定这一模型的拟合效果非常好。5.4模型的预测在模型通过检验后,运用已建立的模型对某地区雇员下一周期的情况进行预测,SARIMA模型预测结果如图12所示。6结语就业率一直是评估经济水平的一个重要指标,就某地区从1978年4月到1991年4月的雇员数据进行研究。通过建立3种不同的季节时间序列模型对某地区接下来的雇员数据进行预测,同时比较3种模型的使用特点,用以指导后续的数据分析。将3种建模方法的预测值与实际雇员数据进行汇总,如表1所示。由于第1种模型的预测效果欠佳,所以将后两种模型的预测图放在一起进行对比,如图13所示。发现两种预测趋势几乎一样,只有具体数值上存在较小差异。说明后两种建模方法效果不存在显著差异,要想评价哪个模型拟合效果更佳,则需要考虑拟合优度。在第2个和第3个模型中,可以计算出调整后的和信噪比,第2个模型的调整后的为0.9970904,信噪比为342.692;第3个模型的调整后的为0.9975377,信噪比为405.1216,结合两种模型与真实值的利差平方和,均显示第3个模型的拟合效果更好。在前期的建模过程中,SARIMA差分模型的优势也十分突出,相比于季节多元回归模型,SARIMA模型通过简单的定阶和拟合,即可充分提取数据中的全部信息,可以即时感知数据的变动,并给出下一周期的预测结果;相较于三参数Holt-Winter加法模型,也没有在拆分数据时为了拟合平滑的趋势部分而损失部分数据,因此在模型建立难度和预测准确度两方面都具有优势,可以作为相关数据研究的首选模型。参考文献1张晓蓬,马丽靖.我国就业率

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开