第38卷哈尔滨师范大学自然科学学报Vol.38,No.62022第6期NATURALSCIENCEJOURNALOFHARBINNORMALUNIV■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ERSITY基于弹性网的两阶段模型平均方法及应用研究*魏巍,王星惠**,陈晓星(安徽大学)【摘要】针对高维数据集的复杂性,提出基于弹性网的两阶段模型平均方法,并将其应用于上证180指数的分析与预测研究中.首先通过弹性网进行变量降维并构建稀疏的候选模型;再根据Jackknife模型平均方法平均候选模型,最大限度用最少的成本获取更多的信息,减少有用信息的损失以提高模型预测精度,并使用各类预测误差指标来验证各预测模型的有效性.研究表明,两阶段模型平均方法可以有效降低上证180指数预测模型的预测误差;弹性网-JMA方法在高维有效样本下具有更好的预测表现和稳健性.【关键词】弹性网;模型平均;模型预测;Jackknife【中图分类号】F224.7【文献标识码】A【文章编号】1000-5617(2022)06-0047-07收稿日期:2022-09-20*基金项目:国家自然科学基金项目(11701005);中国博士后科学基金面上资助(2019M662146);安徽省社会科学规划项目(AHSKQ2020D63)**通讯作者0引言在大数据时代背景下,随着计算机收集、储存数据的技术不断发展,数据规模越来越大,数据维度也越来越高.经研究发现这类高维数据中只有极少数被认为与预测真正相关,如何从繁杂的数据中寻找出有效的信息也成为国内外研究的热点.针对维数祸根问题,目前流行的高维变量选择方法是由Tibsniran提出的Lasso方法,该方法在一般线性最小二乘的前提下通过惩罚将无影响和弱影响的变量的参数压缩为零,以实现降维功能[1].刘睿智和杜溦将基于变量选择观点的Lasso选择方法运用到资产选择和预测中,取得了很好的效果[3].Wu等在指数追踪时使用Lasso方法,并在实证分析中取得较好效果[4].在Lasso方法的基础上,Zou提出的自适应Lasso方法,不仅克服了Lasso方法对重要变量的系数估计有偏且不具有Oracle性质的问题,而且还具备良好的实用性[5].秦晔玲和朱建平利用自适应Lasso方法对深沪300指数的指数追踪进行分析,研究发现该方法在股票选择和有很好的效果[6].但高维数据通常存在多重共线性问题,Lasso方法处理这类数据效果不佳,为克服这一问题,Zou和Hastie提出了一种改进的Lasso算法———弹性网方法,可以克服原始数据中的共线性与群组效应,能有效地处理高维数据[7].Wu和Y...