温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
偏正
数据
参数
混合
效应
模型
贝叶斯
估计
郑丛平
第 40 卷第 4 期Vol.40No.4重庆工商大学学报(自然科学版)J Chongqing Technol Business Univ(Nat Sci Ed)2023 年 8 月Aug.2023偏正态数据下半参数混合效应模型的贝叶斯估计郑丛平,王涛,谢有余云南师范大学 数学学院,昆明 650091摘要:针对纵向数据服从非正态分布情况下混合效应模型的估计问题,提出偏正态分布半参数混合效应模型的贝叶斯估计方法;假定个体测量误差服从偏正态分布,纵向指标与时间的关系采用 B 样条方法建模,在共轭先验下考虑该模型的贝叶斯分析,基于 MH 算法与 Gibbs 抽样的混合算法获取未知参数、随机效应和非参数函数的贝叶斯估计;数值模拟中,数据非正态分布条件下将偏正态方法得到的估计与传统半参数混合效应模型估计方法进行对比,发现偏正态半参数混合效应模型在有限样本情况下表现更好,说明偏正态半参数混合效应模型与传统模型相比,可以更好地拟合偏态数据,获得更加精准的参数估计;最后将该方法应用于 ADNI 数据中,研究了神经评分与基线临床指标间的关系,得出了合理的结论,证明了方法的合理性。关键词:偏正态分布;B 样条;混合效应模型;贝叶斯估计;ADNI 数据中图分类号:O2128文献标识码:Adoi:10.16055/j.issn.1672058X.2023.0004.013收稿日期:20220608修回日期:20220702文章编号:1672058X(2023)04009306基金项目:国家自然科学基金(81360449);云南省教育厅科学研究基金项目(2022Y187);云南师范大学研究生科研创新基金(YJSJJ22B95)作者简介:郑丛平(1998),男,江西赣州人,硕士研究生,从事生物与卫生统计研究作者简介:王涛(1964),男,云南昆明人,副教授,从事生物医学统计、教育统计、社会统计研究Email:wtaokm 263net引用格式:郑丛平,王涛,谢有余偏正态数据下半参数混合效应模型的贝叶斯估计J 重庆工商大学学报(自然科学版),2023,40(4):9398ZHENG Congping,WANG Tao,XIE YouyuBayesian estimation of semi-parametric mixed effect model under skew-normal dataJJournal of Chongqing Technology and Business University(Natural Science Edition),2023,40(4):9398Bayesian Estimation of Semi-parametric Mixed Effect Model under Skew-normal DataZHENG Congping,WANG Tao,XIE YouyuSchool of Mathematics,Yunnan Normal University,Kunming 650091,ChinaAbstract:Aiming at the estimation problem of the mixed effect model when longitudinal data obey non-normaldistribution,a Bayesian estimation method of semi-parametric mixed effect model with skew-normal distribution wasproposed Individual measurement error obeys skew-normal distribution,and the relationship between longitudinal indexand time was modeled by B spline method Bayesian analysis of the model was considered under conjugate prior,andBayesian estimation of unknown parameters,random effects and nonparametric functions was obtained based on the mixedalgorithm of MH algorithm and Gibbs sampling In the numerical simulation,under the condition of non-normaldistribution of data,the estimation obtained by the skew-normal method was compared with that of the traditional semi-parametric mixed effect model It is found that the skew-normal semiparametric mixed effect model performs better underthe condition of limited samples,which indicates that the skew-normal semiparametric mixed effect model can better fit theskewed data than the traditional model,and the Bayesian method can effectively use prior information to obtain moreaccurate parameter estimation Finally,the modified method was applied to ADNI data,and the relationship betweenneural score and baseline clinical indicators was studied A reasonable conclusion was drawn,which proved the rationalityof the methodKeywords:skew-normal distribution;B spline;mixed effect model;Bayesian estimation;ADNI research重庆工商大学学报(自然科学版)第 40 卷1引言混合效应模型(HLM)最早由 Airy 在 1861 年提出,是重要的统计模型,该模型包含固定效应和随机效应,通过固定效应反映总体变化,随机效应反映个体间异质性,在社会学、经济学和生物医学等方面数据分析中有广泛的应用。假设Yij为响应变量,Xij=(Xij1,Xijp),Zij=(Zij1,Zijq)分别是固定效应 和随机效应bi的设计向量,则混合效应模型有如下形式:Yij=Xij+Z tij()bi+ij(1)其中,=(1,p)T,随机效应向量 bi彼此间相互独立,假设服从多元正态分布 Nq(0,D),ij服从正态分布N(0,2)。近几十年来,对混合效应模型的研究已取得较大进展。Angelo 等1 利用 B 样条对光滑样条模型进行改进,提出一种新的拟合非线性混合效应模型的方法,该方法既能够处理个体间的非同质性,又能够对时间效应进行有效刻画,不仅具有参数模型的可解释性,而且具有非参数模型的灵活性,在实际生活中具有更加广泛的适用性;阙烨等2 采用广义最小二乘法对未知参数、随机效应和方差分量进行估计,并证明了估计量的渐进性质。最小二乘法计算简便,但不够稳健,对离群点敏感。为了提高估计效率,Lindley 等3 将贝叶斯方法应用于线性混合模型,贝叶斯方法除了可以利用样本信息外,还可以结合先验信息,从而提高统计推断的效果;Goel4 将经验贝叶斯方法和混合效应模型融合,研究了协变量的超参数行为;齐培艳等5 研究了含变点的半参数非线性混合效应模型的多重估算法,该方法相较于朴素贝叶斯方法和两步法具有更加精准的参数估计;付英姿等6 研究了一类含有不可忽略缺失数据的半参数广义线性混合效应模型,考虑了该模型贝叶斯分析及模型选择问题,提出的方法有更广的适应性。在纵向数据分析中,由于测量误差的原因,数据不服从正态分布的情况时有发生。针对此类问题,最简单的方法是直接假设测量误差服从正态分布进行估计,这样的假定可以带来计算简便以及良好的统计性质,但出现异常点时,稳健性会被破坏。另一种常用方法是对数据进行变换,使得变换后的数据呈正态或者近似正态分布,如 Log 变换、平方根变换和 Box-Cox 变换等,但转换后的正态性假定仍需考察验证,适用范围有限。为此,学者们对测量误差非正态情况下半参数混合效应模型进行了广泛的研究。Huang 等7 采用学生 t 分布建模个体内的测量误差,该方法对厚尾分布的数据具有更强的稳健性;Matos 等8 研究了一类纵向截尾数据,对正态分布进行了修正处理;Sahu 等9 首次在贝叶斯框架下,对偏正态数据进行回归分析;Lachos等10 在随机效应服从偏正态分布的情形下,研究模型参数的极大似然估计;叶仁道11 研究了偏正态混合效应模型的固定效应和偏度参数的经验贝叶斯估计问题。然而,测量误差服从偏正态分布下利用贝叶斯方法对半参数混合效应模型的研究还未见报道。本文针对纵向响应变量服从偏正态分布,研究了半参数混合效应模型的贝叶斯估计问题,其中,个体测量误差服从偏正态分布,纵向指标与时间的关系采用 B样条建模。为结合先验信息,考虑该模型的贝叶斯分析,基于 MH 算法与 Gibbs 抽样的混合算法获取未知参数、随机效应和非参数函数的贝叶斯估计。通过数值模拟证明了研究方法的有效性,实例分析进一步说明方法的合理性。2模型建立21半参数混合效应模型考虑 n 个不相关的个体,每个个体有 mi次观测,采用如下半参数混合效应模型:Yij=Xij+Z(tij)bi+f(tij)+ij(2)其中,i=1,n;j=1,mi;ni=1mi=M;第 i 个个体在第 j个观测时间 tij观察到的响应变量是 Yij;f(tij)是一个未知的光滑函数;Xij,Z(tij),bi的定义与式(1)相同;ij是第i 个个体在第 j 个观察时间点 tij的测量误差,假定它服从偏正态分布 SN(,2,),是位置参数,2是协方差,是偏度参数。如果所有的分量函数都是线性的,那么模型退化成线性混合效应模型。22偏正态分布参考 Sahu9 提出的偏正态分布 SN(,2,),它的概率密度函数为f(;,2,)=2(;,2)(-)()()和()分别是正态密度函数和正态分布函数,限制=2/可使均值为零,减少待估参数,考虑如下的分层模型:=X0+X1,X0N1(0,1),X1N1(,)其中,X0与X1相互独立,基于上述分层模型,纵向数据Yij在给定潜变量xij的条件下,服从正态分布:Yij|xij,biN(Xij+Zijbi+f(tij)+(|xij|2/),2),xijN(0,1),xijbi23B 样条根据 upper 等 12 的建议,采用贝叶斯框架下的 B 样条逼近未知光滑函数 f(t)。考虑如下形式的光滑函数:49第 4 期郑丛平,等:偏正态数据下半参数混合效应模型的贝叶斯估计f t()=1()0+1()1t+1()sts+Ll=12()lt-l()s+(3)其中,s 是样条自由度,L 是光滑函数的节点数,将光滑函数的定义域划分为 L+1 个回归区间,节点和样条采用如下规则进行选取:l为第 l 个节点,通常取样本的 l+1/L+2分位数,并 满 足 0=tmin 1 l=tmax,tl()s+=(max 0,tl)s,令回归系数向量=(1)T,(2)T)T=(1()0,1()1,1()k,2()1,2()L)T截断