Mathemitica数学物理学报2023,43A(4):1297-1310Cientiahttp://actams.wipm.ac.cn基于SCADL2和SCAD混合惩罚的高维随机效应线性回归模型1李旭琳2贺素香*王传美(武汉理工大学理学院武汉430070)摘要:大数据时代的到来,使得变量选择问题成为了当前统计界和各重要领域实际工作者研究的重点课题在许多实际问题中,由于数据间存在相关性或异方差,对高维模型进行变量选择时会产生较大的系统性偏差。该文考虑高维随机效应线性回归模型,改进了现有的基于双惩罚思想的变量选择方法,提出了基于SCADL2和SCAD的混合惩罚方法,在一定程度上弥补了已有方法不同时具备分组效应和渐近性质的不足:给出了基于混合惩罚的随机效应线性回归模型的两步迭代算法.分别在信噪比和随机效应影响不同的情况下对模型进行蒙特卡洛模拟和实例验证.结果表明:与其他惩罚方法相比,该混合惩罚方法具有分组效应和渐近性质,表现出更优良的变量选择能力和系数估计效果,适用于高维随机效应线性回归模型.关键词:SCAD_L2和SCAD混合惩罚方法;高维随机效应线性回归模型;分组效应;渐近性质.MR(2010)主题分类:49R50;78M25;97K80文章编号:1003-3998(2023)04-1297-141引言互联网信息技术的迅速发展引领人们进入了大数据时代,大数据所展现出的规模与复杂性使得传统的统计方法遭受巨大的冲击,由于传统的统计分析理论仅适用于协变量维数远小于样本量的情形,因此不再普遍适用于高维模型.随着高维数据在生物信息、金融管理等领域[1]的广泛普及,人们对高维模型中的变量选择问题提出了更高的要求,即寻求更简约和科学的预测变量以分析与响应变量的关系,提高模型的解释能力.在高维模型的变量选择问题中,高维变量间通常具有很强的相关性,如同一行业的股票往往表现出显著的相关收益;基因表达经常受到细胞因子的刺激或受到生物过程的调控等.若忽视变量间的强相关性,则会使得高维统计推断方法产生较大的系统性偏差而降低效率.一般的线性回归模型已不足以解决这类问题,但是引入随机效应可以有效克服该模型的缺陷,提高模型的预测精度和建模的灵活性因此,研究高维随机效应线性回归模型[2]至关重要.收稿日期:2022-11-11;修订日期:2023-01-05E-mail:704845027@qq.com;hesux@whut.edu.cn基金项目:国家自然科学基金项目(11871153)SupportedbytheNSFC(11871153)*通讯作者中图分类号:C81;O224文献标识码:A1298当前人们普遍利用正则化方法产生稀疏解以实现变量选择的目的.而是否...