温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
区间
数据
基于
OLLG
参数
回归
模型
参数估计
王淑影
第 卷 第 期 年 月江西师范大学学报(自然科学版)()收稿日期:基金项目:中国博士后基金面上课题()和吉林省自然科学基金优秀青年课题()资助项目作者简介:王淑影(),女,吉林省榆树人,副教授,博士,博士生导师,主要从事数理统计、生物统计研究:王淑影,张贺楠,赵波,等 区间删失数据下基于 分布的多参数回归模型的参数估计 江西师范大学学报(自然科学版),():,(),():文章编号:()区间删失数据下基于 分布的多参数回归模型的参数估计王淑影,张贺楠,赵 波,程云飞(长春工业大学数学与统计学院,吉林 长春)摘要:该文基于型区间删失数据,在 分布下提出多参数回归模型,通过线性回归刻画分布参数与协变量之间的关系,并通过极大似然方法给出了模型的参数估计,数值模拟验证了模型参数的估计有良好的性质,将提出的模型应用到血友病患者 感染的数据中,发现提出的模型对数据有灵活的拟合效果关键词:多参数回归模型;型区间删失;分布;极大似然估计中图分类号:文献标志码:引言在临床医学的随访中,兴趣事件发生的时间经常不能被精确记录,只能记录随访时间以及在随访时兴趣事件发生的状态,这类数据被定义为区间删失失效时间数据 关于这类数据的分析与建模一直是众多学者研究的热点 因此,本文将基于更加灵活的 参数 ()分布建立在区间删失数据下的多参数回归模型,分析兴趣事件发生时间的分布模型参数与协变量之间的线性关系目前对于区间删失数据的建模与分析已有很多文献,但大多是基于指数分布、威布尔分布、分布等建立的参数模型,这些模型尽管也具有较为灵活的形式,但是受参数个数与参数形式的限制,并不能完全拟合出事件发生时间的曲线 如指数分布描述了常数风险模型、广义 模型的风险函数只能是递增函数或者是常数,不能提供适合于浴缸型风险函数的建模现象等 讨论在指数分布、威布尔分布下区间删失数据的风险回归模型;等提出了一种基于对数广义 分布的位置尺度回归模型;等主要研究了全参数、非比例风险的多参数威布尔回归生存模型;文献建立了在广义指数分布与威布尔分布下区间删失数据的加速失效时间回归模型 此外,还有许多文献讨论了在区间删失数据下的半参数回归分析,并给出了推断方法 如 等讨论了在型区间删失数据下半参数比例风险模型的极大似估计方法,并证明了极大似然估计的大样本性质;文献提出了在 型区间删失数据下加性风险模型的估计方程方法;等提出了建立 型区间删失数据的半参数加性风险模型,并给出了半参数极大似然估计;等基于加性风险模型提出了在区间删失数据下的估计方程方法,并运用计数过程的鞅理论证明了参数估计的渐近性质;等建立了 型区间删失数据加速失效时间模型等 这些已有文献主要讨论了失效时间风险函数的回归建模问题 年 等从分布参数回归的角度提出了在右删失数据下多参数回归()模型概念,增加了回归模型的灵活性与可解释性 因此,本文将基于区间删失数据建立在 参数 分布下的多参数回归模型,分析协变量与分布参数之间的线性关系,并利用极大似然估计给出在 分布下多参数回归模型参数的估计量本文先介绍了 型区间删失数据的数据结构以及在 分布下多参数回归模型形式;然后给出了在型区间删失数据的 分布下多参数回归模型的似然函数与极大似然估计;再运用数值模拟验证了估计的性质;最后将提出的模型运用到血友病患者 感染的数据集中 数据和模型 型区间删失数据假设随机变量 表示兴趣事件发生的时间 在随访过程中,不能记录事件发生的精确时间,仅仅记录从实验开始到实验结束的有效随访时间 和(),事件发生的时间 在随访时间 和 构成的最小时间区间内 因此,定义示性变量()、()、()分别表示兴趣事件发生时间的区间,、分别是维度为、的 类协变量,则区间删失数据的数据结构表示为 ,其中示性变量满足 分布 分 布 是 等基 于 广 义 分布提出的一类特别灵活的 参数分布假设正随机变量 服从广义 分布函数,则分布函数表示为(;,)(),()其中、表示尺度参数,表示形状参数 基于微分可得随机变量 的密度函数表示为(;,)()(),()基于 等提出 ()分布函数思想,用式()和式()重新替换在 分布中的密度函数和分布函数可得 分布,其密度函数表示为(;,)()()()()(),分布的分布函数为(;,)()()(),()其中、表示尺度参数,、表示形状参数,则生存函数为(;,)(;,)特别地,当形状参数 和 时,该分布退化为 分布,若同时尺度参数,则该分布退化为指数分布;若形状参数 ,则分布退化为 分布,若同时尺度参数,则分布退化为广义指数分布;此外,若尺度参数,则该分布为 分布,若同时满足,则该分布退化为 广义指数分布;若仅有,则该分布退化为 指数分布 因此,分布可以灵活地转换成各种分布形式 多参数 回归模型在已有生存分析建模中,协变量与失效时间所建立的模型一般是加速失效时间模型、加性风险模型以及比例风险模型等 年,等从分布参数回归的角度提出的一种了新的回归方式 多参数回归()模型,其基本思想是基于参数分布的每个参数建立回归模型,这种建模方式的优点是多个参数回归增强了回归模型的灵活性与可解释性 本文将基于文献的方法建立在 分布下的多参数回归 模 型 因 此,基 于 分布的风险函数,假设在分布模型中尺度参数、和形状参数、分别受协变量、的影响,则尺度参数回归 ()、(),形状参数回归 ()、(),其中、表示截距项,系数向量、分别表示 个尺度参数的回归参数向量,系数向量、分别表示 个形状参数的回归参数向量 在实际问题分析中,协变量、允许完全一致,即 假设 (,),(,),(,江西师范大学学报(自然科学版)年),(,)将参数线性回归模型代入到分布函数()中,则当给定协变量、时,分布的多参数回归模型的分布函数为(;,)(;,)()(;,)()(;,)(),其中(;,)()()()()生存函数(;,)(;,),注意到,当 时,模型变为传统 分布模型 极大似然估计假设,(,)是数据 ,的 个独立同分布观测样本,表示第 个样本的精确失效时间 在给定协变量、时,样本失效时间 与随访过程时间、独立,因此,在给定观测数据时,在 分布下的多参数回归模型的似然函数表示为(,)(;,)(;,)(;,)(;,),则对数似然函数表示为(,)(,)(;,)(;,)(;,)(;,)()为了求解模型的参数,一种最直接的方法是极大化对数似然函数,因此,基于对数似然函数()计算各个参数的偏导数,给出得分方程分别为()(,),()(,),()(,),()(,)联立方程并求解获得模型的极大似然估计量?(?,?,?,?)根据文献的定理 可知,在参数模型假设下极大似然估计量?(?,?,?,?)具有相合性和渐近正态性 因此,假设、是模型参数的真值,则(?,?,?,?)收敛到均值为、方差为的正态分布,即(?,?,?,?)(,),其中方差的维度为()()在模拟与实际问题的分析中,相合估计通过 信息矩阵估计,则()()()()()()()()()()()()()()()()|?,?,?,?,其中表示矩阵的逆矩阵 模拟研究本部分将通过数值模拟验证在 分布下的多参数回归模型极大似然估计的有效性 在模拟计算中,根据协变量情况,考虑了 种模型设置()假设维度 ,且协变量 ,并假设服从均值为、方差为 的标准正态分布,并设置 组参数真值:(),.,;(),.,或者假设 且服从成功概率为 的伯努利分布(二项分布),并设置 组模型参数真值:(),;(),.,()假设维度 ,协变量(,),(,),(,),第 期王淑影,等:区间删失数据下基于 分布的多参数回归模型的参数估计(,),且 并服从成功概率为 的伯努利分布,并服从均值为、方差为 的标准正态分布 与情形()一致,同样设置下列 组模型参数真值:(),;(),.,在基于 分布的多参数回归模型假设下,根据上述 种参数设置生成失效时间 为了生成随访过程时间,首先在区间(,)内生成服从均匀分布的观测时间,并在区间(,)内生成服从均匀分布的观测时间,其中在模型设置()中,考虑在服从二项分布的协变量时,设置,.,在服从正态分布的协变量时,设置.,.;在模型设置()中,设置,.比较失效时间 与观测时间 和 的关系,生成示性变量 ()、()和 在上述 种模型设置下,分别考虑了样本容量 和 的情况,并重复 随机实验获得表 表 的结果 表中结果包含有模型参数的真实设置()、极大似然估计值减去参数真实值获得的估计的平均偏差()、极大似然估计量的样本标准差()、估计值的样本标准差均值()和以重复 次随机实验所得到的经验覆盖概率()根据表中计算的结果可知:在不同样本量下,估计量的平均偏差较小,且接近于,估计值基本接近真实值,样本标准差()与估计值的样本标准差均值()近似相等,覆盖概率的估计值在 左右波动 随样本量的增大,估计量的平均偏差和标准差均减小,因此,提出的方法获得估计量是相合的和渐近有效的 比较表 和表 可知:在改变协变量的分布假设时,提出模型的估计结果表现一致且稳定 表 表明:随着协变量维度增加,估计结果仍然是稳健的表 在模型设置()情形下正态分布设置的参数估计的模拟结果参数 注:表示真实值;表示估计的样本偏差;表示标准误差;表示标准差均值;表示置信水平为 的置信区间的覆盖概率 下文同江西师范大学学报(自然科学版)年表 在模型设置()情形下二项分布设置的参数估计的模拟结果参数 表 在模型设置()情形下正态分布设置的参数估计的模拟结果参数 第 期王淑影,等:区间删失数据下基于 分布的多参数回归模型的参数估计表(续)参数 实例分析本部分将提出的方法应用到血友病患者感染 的风险数据集中,该数据集包含 名血友病患者 为了分析血液药物制品浓缩物与血友病患者感染时间的关系,名血友病患者被分成 组,其中一组注射含有浓缩物的血液制品,另一组注射不含有浓缩物的血液药物制品 在整个随访过程中,患者血液样品的收集和采集是间隔的,因此不能记录精确的 感染时间,只能记录患者采集血液样本的时间以及患者 感染的时间,因此该数据集是一个经典区间删失数据 对于血友病患者,假设 表示患者 感染的时间,定义协变量 表示血友病患者注射不含有浓缩物的血液药物制品,表示血友病患者注射含有浓缩物的血液药物制品,分析结果如表 所示 由表 可知,当检验协变量系数,时,对应的 值很小,几乎近似于,因此协变量对模型参数有着显著性影响 个尺度参数的回归系数分别为 、.,且对应的标准差分别为 、,因此,与注射不含有浓缩物的血液药物制品相比,注射含有浓缩物的血液药物制品收缩了模型尺度参数的变化 同时,个形状参数的回归系数分别为.、,对应的标准差分别为.、,因此,注射含有浓缩物的血液药物制品收缩了模型形状参数,同时扩大了模型形状参数,且收缩程度高于扩大程度 综合 参数 分布的性质以及上述回归结果可知,注射含有浓缩物的血液药物制品能在短时间内降低血友病患者感染 的风险,这与目前存在的单参数模型获得的结论一致 然而,随着时间的推移,这种效果会逐渐减弱表 感染风险数据的估计结果参数估计值标准差 值 结论与展望本文提出了在区间删失数据下基于 参数 分布的多参数回归模型,通过极大似然估计方法给出了模型的参数估计量,并通过 信息矩阵计算了估计的标准差 与其他模型相比,多参数回归不再是在标准风险函数回归形式下单一参数与协变量之间的回归关系,它提供了多种参数回归建模的思路,产生了灵活的回归模型 此外,它也可以通过在失效时间模型假设下建立失效时间分布参数与协变量之间的模型来放松比例风险假设,弥补单一回归模型假设的不足 因为该分布假设具有便利性,所以估计过程简单且更容易实现 尽管本文使用了 参数 分布模型,但在实际问题分析中,数据本身的分布假设仍然存在假设偏离的江西师范大学学报(自然科学版)年情形,因此可以通过其他分布形式替代 分布,建立新的多参数回归模型,提高模型拟合实际数据的效果 随着数据形式的复杂,该种建模方法也可以推广到其他更加复杂的数据结构中或者应用于高维数据下的变量选择等 值得注意的是:由于变量选择过程会涉及到 类参数的选择问题,所以计算过程会变得更加复杂一些 参