函数
累积
Logistic
回归
模型
研究
应用
罗幼喜
第5 7卷第2期华中师范大学学报(自然科学版)V o l.5 7 N o.22 0 2 3年4月J OUR NA LO FC E N T R A LCH I NANO RMA LUN I V E R S I T Y(N a t.S c i.)A p r.2 0 2 3收稿日期:2 0 2 1-1 2-2 3.基金项目:国家自然科学基金青年基金项目(1 1 7 0 1 1 6 1);湖北省教育厅人文社科重点项目(2 0 D 0 4 3);湖北工业大学博士启动基金项目(B S Q D 2 0 2 0 1 0 3).*通信联系人.E-m a i l:l i f a n g 0 5s i n a.c o m.D O I:1 0.1 9 6 0 3/j.c n k i.1 0 0 0-1 1 9 0.2 0 2 3.0 2.0 0 1文章编号:1 0 0 0-1 1 9 0(2 0 2 3)0 2-0 1 8 5-1 0函数型累积L o g i s t i c回归模型研究与应用罗幼喜,邓 楠,胡超竹,李翰芳*(湖北工业大学理学院,武汉4 3 0 0 6 8)摘 要:该文针对响应变量为有序多分类标量数据,协变量为函数型数据构建函数型累积L o g i s t i c回归模型,并在贝叶斯分析框架下构造G i b b s抽样算法解决参数估计问题.具体解决流程为:首先,通过潜变量连接有序响应变量与函数协变量间的关系,同时对回归系数函数和回归函数型自变量选取主成分基函数进行展开,设置潜变量模型误差项服从L o g i s t i c分布.再利用P o l y a-G a mm a变换解决模型似然函数的复杂性,并求得回归系数展开系数的后验分布从而构建G i b b s抽样算法.最后将该方法应用与模拟数据和实际空气质量指数(AQ I)的分析,结果显示能较好地对模拟数据和空气质量指数(AQ I)污染状况进行分类.关键词:函数型数据;主成分分析;累积L o g i s t i c回归;P o l y a-G a m m a变换;G i b b s抽样算法中图分类号:C 8 1;O 2 1 2文献标志码:A开放科学(资源服务)标志码(O S I D):先进的数据处理技术使得数据的收集更加密集和高维,进而传统的分析方法不再适用.若是将收集的密集数据看作一条潜在的曲线,研究其内在的变化特征,则能更深入对数据进行挖掘,由此加拿大统计学家R a m s a y1于1 9 8 2年提出了函数型数据分析,并在书中总结了这类数据分析的思想和技巧.继该方法提出后,截至目前已经取得许多有价值的研究成果,并在经济学、生物学、医学、气象学等领域被广泛应用.其中使用最多的是函数型数据回归模型,在国内,丁辉等2对该模型的不同情况进行了介绍.而在函数型数据回归模型中,若响应变量为标量,协变量为函数型数据,则是研究最多的函数型线性回归模型,它的一个重要应用便是针对标量为属性数据时的函数型L o g i s t i c回归模型,可用于函数型数据的分类问题.其中针对二分类的函数型L o g i s t i c回归模型已有大量学者对其进行了研究和讨论,如E s c a b i a s等3分别使用普通基函数以及主成分基函数对模型展开进行了讨论.M o u s a v i等4用不同方法对函数型L o g i s t i c回归模型的分类性能进行了比较.D e n h e r e等5提出针对存在异常曲线时的稳健主成分函数L o g i s t i c回归.但在实际研究中涉及的响应变量可能不止包括二分类数据的情况,可能为多分类数据且还具有一定量级上的差异,从而函数型L o g i s t i c回归模型的一个有力扩展便是多分类函数型L o g i s t i c回归模型,当响应变量为无序时,E s c a b i a s等6提出了基于L o g i t变换的多项函数型L o g i s t i c回归模型,C a r d o t等7利用这一模型研究随时间变化的遥感数据和土地利用率之间的关系.而若响应变量为有序数据时,A g u i l e r a等8给出了具体回归模型,但未对其进行实际的数据分析,因此本文考虑建立针对响应变量为有序数据时的函数型累积L o g i s t i c回归模型,并对其实际分类能力进行分析和探讨.1函数型累积L o g i s t i c回归模型在构建函数型累积L o g i s t i c回归模型前,先对普通数据的累积L o g i s t i c回归模型进行介绍.假设响应变量Yi,i=1,n,其取值为J个有序分类,并记相应的概率为p(Yi=j)=pi j,i=1,n,j=1,J,等级小于Yij的累积概率为p(Yij|xi)=pi1+pi j,i=1,n,j=1,J,则累积概率的L o g i t变换9可表示为:l o g i tP(Yij|xi)=l o gP(Yij|xi)P(Yij|xi)=1 8 6 华中师范大学学报(自然科学版)第5 7卷l o gpi1+pi jpi(j+1)+pi J,j=1,J-1.假设在给定xi时有:l o g i tP(Yij|xi)=l o gP(Yij|xi)P(Yij|xi)=j+xi,j=1,J-1,(1)其中,j为截距,为回归系数,于是P(Yij|xi)=e x p(j+xi)1+e x p(j+xi),j=1,J-1,(2)则P(Yi=j|xi)=e x p(j+xi)1+e x p(j+xi)-e x p(j-1+xi)1+e x p(j-1+xi),(3)于是模型的似然函数为:ni=1cj=1P(Yi=j|xi)I(Yi=j)=ni=1cj=1P(Yij|xi)-P(Yij-1|xi)I(Yi=j)=ni=1cj=1e x p(j+xi)1+e x p(j+xi)-e x p(j-1+xi)1+e x p(j-1+xi)I(Yi=j),(4)其中,I()为示性函数,如果把有序响应变量Y看作是不可观测变量Z的分类版本,即:Yi=jj-1Zij,i=1,n,j=1,J,(5)其中,-=01j=为不可观测的潜在变量的分类界限.将上述累积L o g i s t i c回归模型扩展到协变量为函数型数据的累积L o g i s t i c回归模型,A g u i l e r a等8在其研究中给出了定义,但未考虑引入潜变量.M o n t e s i n o s-L p e z等1 0在针对基因数据的研究中构建了贝叶斯有序L o g i s t i c回归模型,但其是针对普通数值型数据进行研究,因此本文考虑通过潜变量的引入构建函数型累积L o g i s t i c回归模型.设协变量x(t)为平方可积空间L2上的可积函数,即Tx2(t),Y=(Y1,Y2,YN)为N个有序多分类变量,其中Yi(1,2,J).在回归模型中,有序多分类变量Yi与协变量xi(t)通过潜在连续变量Zi相联系,即:Zi=Txi(t)(t)dt+i,i=1,2,N,(6)其中,iL(0,1),L()为L o g i s t i c分布,(t)为回归系数函数,有序分类变量Yi与潜在连续变量Zi的关系为:Yi=1,当-Zi1时;2,当1Zi2时;J,当j-1Zi.(7)即-=01J-1J=.由潜变量回归模型中i为服从L(0,1)的随机变量,则第j类的累积响应概率与有序分类变量Yi间的关系可表示为:P(Yij|xi(t)=j(xi(t)=P(Zij)=P(Txi(t)(t)dt+ij)=P ij-Txi(t)(t)dt()=e x pj-Txi(t)(t)dt()1+e x pj-Txi(t)(t)dt(),j=1,2,J-1,(8)等价地,累积L o g i t模型可表示为:l o gj(xi(t)1-j(xi(t)=j-Txi(t)(t)dt,j=1,2,J-1,(9)从而在链接模型表示下,P(Yi=j)=j(xi(t)可表示为:j(xi(t)=P(j-1Zij)=e x pj-Txi(t)(t)dt()1+e x pj-Txi(t)(t)dt()-e x pj-1-Txi(t)(t)dt()1+e x pj-1-Txi(t)(t)dt().(1 0)由于函数型数据为高维数据,需要将其进行低维表示,通常的做法是将其进行基函数展开,常用的基函数可以选取傅里叶基函数、B样条基函数、小波基函数等,在这里选取由数据驱动的主成分基函数,因其有良好的正交性质.首先在普通基函数展开下,函数回归变量x(t)和系数函数(t)可以分别表示为:xi(t)=Pk=1ci kk(t),(1 1)第2期罗幼喜等:函数型累积L o g i s t i c回归模型研究与应用1 8 7 (t)=Pl=1bll(t),(1 2)则潜在回归变量表达式(1)可改写为:Zi=Pk=1Pl=1ci kk lbk+i,i=1,2,N,(1 3)其中,1(t),2(t),p(t)为前P个主成分基函数,k l=Tk(t)l(t)dt,k,l=1,2,P,P为截断参数,通常通过累积方差贡献率大于8 5%进行选取.同时由M e r c e r引理1 1和K a r h u n e n-L o e v e定理1 2建议采用正交函数作为协方差算子W的特征函数,定义为:Wx(t)=Tx(s)w(s,t)ds,w(s,t)=C o v(x(s),x(t),(1 4)从而在正交函数的选取下,(1 3)可表示为:Zi=Pk=1Pl=1ci kbl+i,(1 5)其中,ci k,k=1,2,P被称为关于函数协变量x(t)的函数主成分得分,从而函数型累积L o g i s t i c回归模型可以表示为:l o gj(xi(t)1-j(xi(t)=j-Pk=1Pl=1ci kbl,j=1,2,J-1,(1 6)等价地,P(Yi=j)=j(xi(t)可表示为:j(xi(t)=P(j-1Zij)=e x pj-Pk=1Pl=1ci kbl1+e x pj-Pk=1Pl=1ci kbl-e x pj-1-Pk=1Pl=1ci kbl1+e x pj-1-Pk=1Pl=1ci kbl.(1 7)由式(4)和式(1 7),有序响应函数型回归模型的似然函数可写作:Ni=1Jj=1j(xi(t)I(Yi=j)=Ni=1Jj=1P(Yij|xi(t)-P(Yij-1|xi(t)I(Yi=j)=Ni=1Jj=1e x pj-Txi(t)(t)dt()1+e x pj-Txi(t)(t)dt()-e x pj-1-Txi(t)(t)dt()1+e x pj-1-Txi(t)(t)dt()I(Yi=j)=Ni=1Jj=1e x pj-Pk=1Pl=1ci kbl1+e x pj-Pk=1Pl=1ci kbl-e x pj-1-Pk=1Pl=1ci kbl1+e x pj-1-Pk=1Pl=1ci kblI(Yi=j).(1 8)2基于P o l y a-G a mm a变换的条件后验分布推导 由式(1 8)似然函数的复杂性,较难通过选取适当先验并基于后验抽样得到较好的估计,因此考虑通过P o l s o n等1 3提出的P o l y a-G a mm a数据增强算法来构造易于实施的G i b b s抽样算法.首先,设系数函数(t)进行基函数展开后的系数b=(b1,b2,bL)TN(b0,2bb),其中b0为p维向量,b为pp维矩阵,2bI G(ub,vb),并从U(m i n,m a x)中选取顺序统计量作为J-1个未知阈值的先验,即:P()=(J-1)!1m a x-m i nJ-1I(T),(1 9)其中,T=(1,2,m a x)|m i n1J-1m a x.由潜在连续变量ZiL(Cib,1)且只有当j-1Zi0,表示服从参数为(b,0)的P o l y a-G a mm a分布,其密度函数表示为:f(xb,0)=2b-1(b)n=0(-1)n(n+b)(n+1)(2n+b)2 x3e-(2n+b)28x,(2 1)则对于所有a R