温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
线性
模型
影响
诊断
313Journal of BeijNormalUnivey(NaturalScience)59(2)2023-04北京师范大自然科学版)高维线性模型的影响点诊断张欣赵俊龙(北京师范大学统计学院,10 0 8 7 5,北京)摘要从单影响点到多影响点2 个角度回顾了影响点诊断领域的进展;重点介绍了近年发展起来的一些高维影响点检测新方法,该方法适用于自变量个数远超样本量的情形,可被看作是经典Cook距离在高维数据的推广。Cook距离量化了个体观测对最小二乘系数估计的影响,而新方法则捕获了个体观测对边际相关的影响,进而对变量选择和其他下游分析任务产生重要影响.数值模拟结果验证了新方法的可行性和有效性。关键词影响点诊断;高维数据;线性模型;Cook距离;边际相关中图分类号号C8D0I:10.12202/j.0476-0301.20223080引言影响诊断是统计建模的一个重要步骤,其主要目的是检测数据中的影响点.统计中通常按照如下思路判定一个观测值是否为影响点(也称为异常点):如果在删除某个观测后,统计分析的某些重要特征将发生实质性改变,则该观测值被标记为影响点.影响点可能导致统计分析失真以及结果误导,因此统计建模时需要对影响点保持警惕,并在解释统计结果时应将其考虑在内.经典正态线性模型通常利用回归系数估计的显著改变定义影响点.为此,Cookll提出了利用完整数据所获得的最小二乘估计(LSE),与去掉所考察观测点后剩余数据所获得LSE估计之间的差异度量影响点,这个度量在统计文献中被称为Cook距离.Cook距离量化了观测对回归系数估计的影响,因此,具有较大Cook距离的观测被认为是影响点.Cook距离自提出以来已被广泛应用于回归分析.鉴于其对删除样本的思路具有清晰的解释,并且计算简单,无须为每个删除的样本重新估计模型,因此,Cook距离已经成为大多数标准回归教科书的经典内容,且可通过流行的统计软件(如R和SAS)轻松实现.此后,影响诊断问题引起了相当多的关注,学者们针对各种模型进行了系统的研究。例如线性回归模型1-2、分类数据分析3、广义线性模型4、广义估计方程5、线性混合模型6、广义线性混合模型7、增长曲线模型8 等.关于影响点诊断领域最新发展的回顾,可以参考Zhu等9的研究.然而,现有的诊断方法多数是在回归中自变量个数固定的假设下所提出来的,因此不适用于自变量个数p远远超过样本量n的高维回归分析问题.另一方面,大数据时代研究所遇到的数据通常具有前所未有的规模和维度,这就要求发展高维影响点诊断方法。对于高维数据的影响点诊断问题,一个直观的解决方案是继续使用经典的Cook距离,但是使用正则化估计,如LASSOI10替换LSE估计,这种思路有明显的缺陷:首先,影响点的存在会扭曲变量选择的结果,反过来影响修改后的Cook距离;其次,LASSO调整参数会针对每个缩减的数据集进行更新,这种重新估计导致计算量很大,尤其是回归维度p很大时;再次,修正Cook距离渐近性质的理论分析十分困难,这使得阈值的设定也比较困难;此外,在众多变量选择方法中,尚不清楚哪个是对影响点诊断最优的.高维数据影响点诊断问题仍面临许多挑战,因为数据维数的增加会放大观察结果的影响力及其对分析的潜在影响.第1个挑战是影响点的定义.换句话说,应该选择分析哪个特征,并利用它的实质性变化来定义一个有影响的观测?在经典回归问题中,如果一个观测值引起回归系数的严重变化,则该观测被认为是影响点.在自变量维度p大于样本量n的高维回归中,因为Gram矩阵不可逆,普通LSE量非常不稳定.另一方面,变量的选择和筛选在高维回归分析中特别重要。近年来有大量关于变量选择的研究,包括LASSOl10、自适应LASSOl、SCA D 12、b r i d g e 估计13*国家自然科学基金资助项目(118 7 110 4,12 1310 0 6)十通信作者:赵俊龙(197 9),男,博士,教授研究方向:高维数据、机器学习.E-mail:收稿日期:2 0 2 2-0 4-30314北京师范大自然科学版)第59 卷LARS算法14、Dantzigl15、SIS16 等.在所有这些选择方法中,一个统计量起着至关重要的作用,即响应和自变量之间的边际相关系数.注意到,SIS是基于边际相关系数直接定义的,而前向回归的每一步也取决于自变量与响应变量的边际相关性.此外,样本边际相关性还应用到了LARS算法、LASSO、自适应LASSO等方法中。受这一重要观察的启发,本研究选择边际相关性作为定义影响点的特征.利用留一法的思想,提出了一种新的高维影响度量(HIM)方法,以实现高维数据的影响点诊断.在此基础上,导出了所提出的影响度量的渐近分布,这为影响点诊断提供了理论指导.进一步,提出了一种基于错误发现率(FDR)控制的算法用于影响点诊断.然而,利用留一法的HIM只能有效检测单个影响点的存在,而对于实际数据中常见的多影响点的情况是不适用的。鉴于“掩蔽”和“淹没”等效应问题,检测多个影响点是一个更具挑战性的课题.具体地,由于影响点之间存在复杂的相互作用,导致一个影响点不能被发现,就会发生“掩蔽”;一个非影响点由于影响点的存在而被检测为有影响,就会发生“淹没”.用多重假设检验的语言,“掩蔽”是假阴性的问题,“淹没”是假阳性的问题.为了处理这些影响,针对维数p固定的情形,学者们提出了基于组删除的方法17-2 2。但是对于高维数据,这仍然是一个公开题.故此,本文在HIM方法的基础上进一步推广,基于随机组删除的思想,提出了一种新的高维数据中多个影响点的检测方法,称为MIP.该方法随机抽取多个子集来计算观测的影响.进而,提出了2 个新的统计量,分别命名为“最大”和“最小”统计量,用于评估每个点的极端性.理论研究表明这2 个统计量具有互补性:最小统计量可以克服“淹没”效应,但对“掩蔽”效应的检测效果较差;而最大统计量非常适合检测被“掩蔽”的影响点,但在处理“淹没”效应时效果较差。综合二者优势,提出了一个简单算法用以获取数据的干净子集,并将其作为评估其他观察值影响的基准,从而能够使用错误发现率(FDR的控制方法,如Benjamini等2 3判别影响点.本文严格建立了“最大”和“最小”统计量的理论性质。在此必须指出,即使对于自变量维数固定情形,对给定的影响度量,也没有一般的方法来判定影响点。相反,本研究提出的MIP方法是第1个理论上证明的方法,并且可以用于更具挑战性的高维回归问题。高维数据的影响点度量1.1丝线性模型及经典Cook距离本文关注线性回归模型的影响点诊断问题.统计分析通常假设数据(Yi,X),i=1,n 为独立同分布样本,来自模型Y,=X,+8i,i=1,.,n,(1)式中:X,=(1,Xin,Xip)RP+I是p+1维自变量;Y,ER为响应;8;ER为误差项,服从均值为0,方差为2的正态分布.对经典的pn时,变量选择和筛选起核心作用,而边际相关性对大多数变量选择方法来说至关重要.受此启发,对于高维数据的影响诊断,选择边际相关而不是回归系数作为定义影响的特征。令p=(pt,Pp),其中p,表示第j个自变量与响应变量的相关系数.定义p,表示利用全部样本对p,的估计,表示去掉第k个观测后对p,的估计,1jp.定义高维影响度量(HIM)24 为D.=p(o,-p),1kn.(5)j=1由式(5)可知,无论自变量维度如何,边际相关都可轻松完成计算,这对于高维数据分析非常有用。影响点定义在边际相关系数上,具有尺度不变性.然而,这不意味边际相关性是影响力的最终特征。相反,样本对边际相关性有重要影响,也会对下游任务产生重要影响,例如变量选择和参数估计.故此,对于一种对315张欣等:高维线性模型的影响点诊断第2 期意外扰动具有鲁棒性的估计方法,应该对边际相关系数具有稳健性.使用边际相关性定义影响度量并不意味着假设一个边际模型,相反,仍然假设联合模型是式(1)HIM方法类似于经典的Cook距离,但利用了响应和所有自变量之间的边际相关性组合.该度量适用于pn的高维情形,并且计算简单,经典Cook距离考察个体观测对LSE的影响,而HIM方法度量对边际相关系数的影响,进而捕获对变量选择和其他下游分析的影响.选择将边际相关性作为影响诊断的定义特征并不意味着边际相关性是研究的最终目标。相反,它反映了对重要分析特征的影响,包括参数估计、变量选择和筛选.HIM方法引起了学者们的广泛兴趣,但是HIM所用的Pearson相关系数度量了线性相关性,不能有效度量非线性相关性。研究人员提出一系列改进方法,比如将Pearson相关系数替换为其他类型的相关系数,如距离相关和稳健相关系数等2 5.1.3理论性质质定理1(如下)建立了D的渐近分布。假设样本量n和维度p趋于无穷大,非影响点来自式(1)的独立同分布样本。对于任意非影响点(Y,X,),定义xi=E(X),o,=Var(X),1jp,y=E(Y),;=Var(Y).1)对于固定j,是一个不随着p变化的常数.2)对于协方差矩阵Z=Cov(X),具有特征分解=uij.假设 l,=0(p),对于某个0 j=1j=1rnDk).这里有n个假设检验,因此基于多重假设检验的BH方法2 3,确定应该拒绝哪个假设.令nimn表示n个观测值中影响点的数量,n和np表示真阳性和假阳性的个数,r为n个假设检验中被拒绝的总数.定义R,=nup/in,Rrp=nip/r,(6)式中错误发现率RFD(FDR)的级别通常被设置为0.0 5.从理论分析的角度,本研究所提出的HIM相较于Cook更具优势.在经典回归模型自变量个数p固定的情况下,理论分析显示,经典Cook距离的随机性主要是由被考察的观测决定,由于其样本量只有1个.这就排除了为其建立标准渐近理论的可能性。为了给经典Cook距离确定一个合适的阈值,若假设真实模型是参数模型,则该阈值可以利用Bootstrap方法来得到.然而,这需要参数化模型假设,并且计算成本非常高,特别是对于高维数据来说。相比之下,当自变量维数随着样本量的增加而变为无穷大时,提出的HIM方法的统计量的分布是可以得到的,而且闵值很容易获得。2多个影响点的检测问题与许多维数固定时的影响点度量类似,HIM及其推广方法是基于留一法的,能够有效处理单个影响点的诊断问题具体来说,对考察的观测点乙,分别在整个数据集和去掉观测点Z之后的子集上计算预先定义的度量标准的值,并将二者进行比较.由于掩蔽效应和淹没效应的存在,HIM不能有效处理多个影响点的检测问题.事实上,定理1所得的结论是在没有影响点时的渐近结果,当样本中存在多个影响点时,定理1的结论不再成立,由此可以看出多个影响点检测的困难.下面讨论多个影响点的诊断问题.在实际问题中,影响点的数量通常是未知的,为了克服留一法的困难,很自然的想法是采用组删除,即每次删除多个值,来识别多个影响点。当自变量维数p固定时,人们利用该思想提出了一些方法19-2 1.但是现有的组删除方法中,通常是根据学生化残差或类似标准来删除样本,这就需要对进行估计,而影响点存在时,得到好的估计是有困难的,并且在理论分析上也存在困难。本研究提出的MIP程序2 避免了估计,基于这些子集的边际相关性可以看作是对基于整体的边际相关性的某种扰动2 2,而现有的组删除方法中并没有类似的做法.现假设非影响点来自式(1),而影响点来自不同的模型.记Z=(Yk,X)为第k个观测点,1kn.对于固定的k,为了检查Z是否为影响点,随机选取子集Ai,AmC1,n)(k),即这些子集不包括Z关于子集个数m的选择,模拟结果表明,m为10 0 或2 0 0 时所得的结果较优.令A,=nsub-1,其中nsub=nksub+1对于某些ksubE(0,1).对ninr和ksub作出假设。1)令Sinf.m=ninr/n,可以随着n变化假设0 imf.0 与n独立.取ksub=lim supinf.n+0j.n-o0316第59 卷北京师范大自然科学版)2)不失一般性,取ksub=1/2.对于1rm,令A(k)=A,U(k).对于Zk,计算其关