温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
医用
SAS
统计分析
2023年2月25日 1 医用SAS统计分析 第五讲 2023年2月25日 2 一、多元线性回归 基本概念 多元线性回归简称多元回归,是研究一个应变量与多个自变量间线性依存关系数量变化规律的一种方法。多元线性回归方程 mmXbXbXbbY22110式中:b0为回归方程常数项,bj(j=1,2,,m)为偏回归系数,即在其他自变量固定的条件下,Xj改变一个单位时应变量的改变量。2023年2月25日 3 多元线性回归方程的应用 预测应变量的估计值 探索影响应变量y的主要因素 当X为某一定值时,估计应变量y的容许区间 当X为某一定值时,估计其应变量 的总体均数 的置信区间 YYStY,iYYYStY,2023年2月25日 4 语句格式 同单变量线性回归基本相同。proc reg 选项;model 应变量=自变量名列/选项;必选语句,定义回归分析模型 proc reg 语句的选项 data=数据集 指明回归分析所用的数据集。outset=数据集 指定一个输出数据集,用以存储回归分析所得的参数估计。simple 输出每个变量的简单统计结果。2023年2月25日 5 model语句的选项 selection=method 规定变量筛选方法,method可以是以下几种选项:forward(或 f)前进法,按照sle规定的P值从无到有依次选一个变量进入模型 backward(或 b)后退法,按照sls规定的P值从含有全部变量的模型开始,以次剔除一个变量。stepwise 逐步法,按照sle的标准依次选入变量,同时对模型中现有的变量按sls的标准剔除不显著的变量。注:选项中没有selection语句时,模型中含有全部自变量的回归模型。sle=概率值 入选标准,规定变量入选模型的显著性水平,前进法默认为0.5,逐步法默认为0.15。sls=概率值 剔除标准,指定变量保留在模型的显著性水平,后退法默认为0.1,逐步法默认为0.15。2023年2月25日 6 stb 输出各自变量的标准偏回归系数。cli 输出个体y值的95%容许区间上下限 clm 输出预测值均值 的95%可信区间上下限。P 输出实际值Yi,预测值 、残差及其标准误。tol 输出各自变量的容许值。0tol值1,越接近于0,共线性越严重。vif 输出各自变量的方差膨胀因子。当vif10时,可认为多元共线性严重存在。collin 要求详细分析自变量之间的共线性,给出信息矩阵的特征根、条件指数和方差比,当条件指数10,方差比0.5时,可认为存在多元共线性。collinoint 与选择项collin作用相同,但不包括回归常数。R 进行预测值的残差分析(即异常值识别与强影响分析),输出学生化残差值和Cooks距离D值。当学生化残差值2时,所对应的点可能是异常点,当D值0.5时,可认为对应的变量值对回归函数是强影响点。YStY,YYStY,iY2023年2月25日 7 完全多元线性回归 例7-7 10名女中学生的体重(X1,kg),胸围(X2,cm),胸围的呼吸差(X3,cm)及肺活量(Y,ml)的资料如下表所示。现作应变量Y对自变量X1,X2,X3的三元线性回归方程。data mreg1;input x1 x2 x3 y;cards;35 69 0.7 1600 40 74 2.5 2600 40 64 2.0 2100 42 74 3.0 2650 37 72 1.1 2400 45 68 1.5 2200 43 78 4.3 2750 37 66 2.0 1600 44 70 3.2 2750 42 65 3.0 2500;proc reg;model y=x1 x2 x3/stb;run;2023年2月25日 8 Model:MODEL1 Dependent Variable:Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 3 1250109.0678 416703.02259 5.617 0.0355 Error 6 445140.93222 74190.15537 C Total 9 1695250 Root MSE 272.37870 R-square 0.7374 Dep Mean 2315.00000 Adj R-sq 0.6061 C.V.11.76582 2023年2月25日 9 Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INTERCEP 1 -3035.536354 2168.6738473 -1.400 0.2111 X1 1 60.931823 36.29713798 1.679 0.1442 X2 1 37.808334 22.98080891 1.645 0.1510 X3 1 101.379460 121.97470310 0.831 0.4377 Standardized Variable Estimate INTERCEP 0.00000000 X1 0.46445689 X2 0.39174762 X3 0.25399450 2023年2月25日 10 逐步回归 简介 逐步回归是筛选自变量的常用的方法之一。筛选自变量的方法还有前进法,后退法和最优回归子集法。逐步回归法是依据事先给定的两个显著性水平SLE和SLS,将自变量逐个引入方程,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著的变量剔除,这样保证最后所得的变量都有显著性。自变量间的多重共线性(multicollinearity)整个回归方程的统计检验P 的矛盾现象。偏回归系数的估计值明显与实际情况不符,或者是偏回归系数的符号与专业知识的情况相反。2023年2月25日 11 据专业知识,该自变量与应变量间关系密切,而偏回归系数检验结果P。增加(或删除)一个变量,或者改变(或去除)一个观察值,引起回归系数估计值发生大的变化。多重共线性是引起上述问题的重要原因。解决多重共线性的办法 用主成分估计等有偏估计替代最小二乘估计。用逐步回归等方法筛选自变量。如上例7-7,整个回归模型P=0.0355,而b0,b1,b2,b3P值均大于0.05。估计变量之间存在共线性问题。2023年2月25日 12 程序7-13 data stepreg1;input x1 x2 x3 y;cards;35 69 0.7 1600 40 74 2.5 2600 40 64 2.0 2100 42 74 3.0 2650 37 72 1.1 2400 45 68 1.5 2200 43 78 4.3 2750 37 66 2.0 1600 44 70 3.2 2750 42 65 3.0 2500;proc reg;model y=x1-x3/stb tol vif collin collinoint R;model y=x1-x3/selection=stepwise sle=0.25 sls=0.25 stb;run;2023年2月25日 13 例(医学统计学王洁贞主编,例15.1)某科研协作组调查某煤矿期高血压病患者40例,X1为工作面污染程度等级,X2为井下工龄(年),X3为体重(kg),X4为吸烟年限(年),X5为饮酒年限(年),Y为收缩压(kPa),试作多元线性回归分析。data stepreg2;infile d:sassas5wang15_1.txt;input id x1 x2 x3 x4 x5 y;proc reg;model y=x1-x5/stb tol vif collin collinoint r;model y=x1-x5/selection=stepwise sle=0.05 sls=0.05 stb;run;2023年2月25日 14 二、多元线性相关 研究多个变量间线性关系的一种统计分析方法。变量间相关系数有以下三类:简单相关系数 它是说明两个变量相关程度和方向(不考虑其他变量的影响)的统计指标(ri,j)。偏相关系数 它是当其他变量固定时,说明某两个变量间相关程度和方向的统计指标(如r12,3)。复相关系数R 亦称为全相关系数。说明应变量与各自变量的线性关系的密切程度。决定系数 R2 复相关系数的平方。它说明应变量的变异中由各自变量的改变而引起的占多少。如R2=0.8,则说明应变量的变异中有80%由自变量的改变而引起的。2023年2月25日 15 程序7-12 data mcorr1;infile d:sassas5mcorr1.txt;input x1 x2 x3 y;proc corr nosimple;/*禁止一些简单统计量的输出*/var x1 x2 x3 y;/*包括了所有变量,实际可以省略*/proc corr nosimple;var x1 x2;partial x3;/*partial语句的作用是固定x3*/proc corr nosimple;var x1 x2;partial x3 y;/*partial语句的作用是固定x3和y*/run;2023年2月25日 16 三、Logistic回归分析 简介 Logistic回归模型是适用于应变量(因变量)为分类变量的回归分析。当应变量为分类变量时,如应变量结果为二分类变量的发病、不发病,生存、死亡等,是不能用多元线性回归模型(Y=0+i xi)来分析各种危险因素与应变量之间的关系的。因为应变量Y只能取值为1和0。不符合线性回归模型中应变量Y应具有正态分布和方差齐性的要求,同时线性回归模型得到的Y值会出现大于1或小于0的不合理结果,显然不能用线性回归建立预测模型。以发病为例,发病的概率为P,不发病的概率为1-P,0P1。iiXYPP01ln公式等号左边简称为logit(P),即 logit(P)=0+i xi 可证明,无论Y得何值,均0P1。上式可推导为:2023年2月25日 17 iiiiXXeeP001iiXeP0111 Logistic回归的应用 logistic回归在流行病学和临床流行病学等方面应用广泛,既可用于前瞻性的队列研究,又可用于回顾性的病例对照研究。常用于:病因学分析;预后分析;鉴别诊断;评价治疗措施;毒物的半数效量和联合作用 2023年2月25日 18 Logistic回归的分类 按应变量的类型分类为:两分类的Logistic回归 非条件logistic回归 即研究对象未经过配对。(在SAS中调用logistic模块进行统计)。条件logistic回归 即在配对病例对照研究中的1:1和1:M及N:M配对。(在SAS中调用Phreg模块进行统计)。多分类有序反应变量的Logistic回归 (在SAS中调用logistic模块进行统计)。多分类无序反应变量的Logistic回归 (在SAS中调用Catmod模块进行统计)。本讲主要介绍两分类Logistic回归 2023年2月25日 19 两分类非条件Logistic回归 语法格式 Proc logistic data=数据集 选项;model 应变量名=自变量名列/选项;freq ;可选项,指明频数变量。output ;output语句创建一个新的SAS数据集,其含有每个个体的原始数据,pred|p=变量名为在out=数据集中含有每个个体预测概率。【Procroc语句的语句的 选项选项】order=data 规定按照数据集中反应变量水平出现的先后顺序进行运算。descending(或des)规定按照反应变量降序水平进行运算。2023年2月25日 20 注意:以上两个选项非常重要,如死亡为1,存活为0,为了得到死亡对存活的概率(或者说是死亡的危险),应选择此两个选项之一,否则得到的是存活对死亡的概率,因为logistic回归模型是自动按反应变量值为小的来拟合方程的。反之,如果死亡为0,存活