温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
回归
分析
第3章 回归分析
3.1 什么叫回归分析
一、 问题的提出
回归分析是数理统计中的一种常用方法,是处理变量之间的相关关系的一种数学方法。通常将变量之间的关系分为以下两类:
1.确定性关系——函数关系
例如,在研究自由落体的运动规律中,我们知道物体下落的高度h与所需时间t之间,就有确定的关系h=0.5gt2 (0≤t<T)
又如正方形的面积S与边长a之间,当边长a确定时,面积S=a2,也就确定了,这类变量间关系的特点是,当自变量的值确定之后,因变量的值也随之确定,我们称变量间的这种关系为函数关系。
2.非确定性关系——相关关系
例如,人的身高与体重这两个变量间的关系,一般来说,身高者体也重,但是,体重却难以由身高确定。这说明这两个变量之间的不确定性。我们称变量间的这种关系为相关关系。
相关关系虽然不能用精确的函数关系表达,但通过对大量观测数据的分析,可以发现它们之间存在着一定的统计规律。
二、 回归分析的内容——研究相关关系
回归分析是研究变量间相关关系的一种数理统计方法,它主要解决以下几个问题:
(1)从一组数据出发,确定相互间是否存在相互关系,如果存在,那么就确定他们之间的数学表达式——经验公式,并对所建立公式的可信程度作统计检验;
(2)从许多变量中找出主要变量,判断哪些变量的影响是显著的,哪些变量的影响是不显著的。
(3)利用所找到的数学表达式(即经验公式)对变量进行预测或控制
3.2 一元线性回归分析
一、一元线性回归分析的数学模型
研究两个变量之间的相关关系的回归分析,称为一元回归。若其相关关系的统计规律性呈线性关系,则称为一元线性回归分析。
在一元线性回归中,我们要考察随机变量y与普通变量x之间的相互关系,称y为因变量,x为自变量。
例3-1 用银盐法测定食品中的砷时,吸光度y 与砷含量x 之间有一定的相关关系,了解其相关关系的步骤如下:
1. 通过试验收集n组y与对应的x值,如表3-1所示。
表3-1 银盐法测定食品中砷的试验数据
试验号
x(砷含量,mg)
y(吸光度)
1
0
0.000
2
1
0.041
3
3
0.145
4
5
0.211
5
7
0.306
6
9
0.399
2. 画散点图。这是表示两个变量间相关关系的一种直观办法。以x为横坐标,以y为纵坐标,每一对数据(xk,yk)作为一个点在坐标纸上以“⊙”表示出来,k=1,2,……,n。
3. 观察散点图。从图中可以看出,6个点分布在一条直线附件。因此可认为y~x基本上服从线性关系,而这些点与直线的偏离是由于其它随机因素造成的。
因此,可以假定表3-1中的数据有如下关系:
(3-1)
ε~N(0,σ2)
其中(β0+βx)表示y随x的变化而线性变化的部分。ε是一切随机因素影响的总和,有时也成为随机误差。它是不可观测其值的随机变量,并假定ε服从正态分布N(0,σ2)。x是一般变量,即它是可以精确测量或严格控制的,y是随机变量,但其值是可以观测的,其数学期望是x的线性函数:
(3-2)
这就是y与x相关关系的形式。y~N(β0+βx, σ2)
对表3-1中的几组观测值,由式(3-1)可得:
(3-3)
各εi相互独立。
E(εk)=0,D(εk)=σ2,k=1,2,3,·····,n.
式(3-3)称为一元线性回归的数学模型。
一元线性回归的首要任务,就是要根据表3-1去求式(3-2)中未知参数β0和β的估计值b0和b,由此可得E(y)的估计值为
(3-4)
式(3-4)称为y关于x的一元线性回归方程.其图像如图3-1中的直线所示,该直线称为回归直线,b0和b称为回归系数,b是回归直线的斜率,b0是截距。
二、参数β0 和β的最小二乘估计
求回归方程(3-4),就是求β0 和β的估计b0和b,使得对一切xk,观测值yk与回归值的偏离达到最小。为此,我们用最小二乘法来求β0 和β的估计。令
Q(β0,β)=2 (3-5)
所谓β0和β的最小二乘估计,是指使下式成立的b0和b:
Q(b0,b)=Q(β0,β)
下面,求使Q(β0 ,β)取得极小值时的b0和b
(3-6)
整理后,得
(3-7)
式(3-7)称为正规方程组,其中表示。
正规方程组(3-7)可化为另一种形式:
b0 + b = (3-7a)
(3-7b)
其中分别是样本均值。由式(3-7a)解得:
代入(3-7b)式,得
(3-8)
令
其中
故最小二乘估计为
(3-9)
于是,所求的回归直线方程为:
显然,和都是在回归直线上。
下面,我们来求例3-1的回归直线方程。计算过程通常用表格形式给出,如表3-2和表3-3所示。
表3-2 回归方程计算表(I)
k
xk
yk
1
0
0.000
0
0.000
0
2
1
0.041
1
0.041
0.0017
3
3
0.145
9
0.435
0.0210
4
5
0.211
25
1.055
0.0455
5
7
0.306
49
2.142
0.0936
6
9
0.399
81
3.591
0.1592
25
1.102
165
7.264
0.3200
表3-3 回归方程计算表(II)
在散点图3-1中,通过和两点,即(0,0.001)和(4.167,0.184)两点引一条直线,即为所求的回归直线,其回归方程为
在表3-3中
附件 -- 标准曲线的回归分析
因标准曲线受必须过坐标原点(0,0)的约束条件限制,故回归方程的形式简化为
用最小二乘法求β的估计,令
Q(β)=2
所谓β的最小二乘估计,是指使下式成立的:
Q()=Q(β)
下面,求使Q(β)取得极小值时的
整理后,得
求出回归方程后,还必须对回归方程进行显著性检验。检验不显著的回归方程无意义。回归方程的显著性检验方法,通常有方差分析和相关系数分析两种。
三、回归方程的显著性检查(F检验, 即回归方程的方差分析)
由前面的讨论可知,对任意两个相关变量,即使他们不存在线性关系,也可以通过他们的一组观测值用最小二乘法求得y对x的回归直线方程。实际上如果y与x没有线性相关关系,那么所求出的线性相关方程是毫无实际意义的。
因此,建立了回归直线方程之后,还需要判断y与x之间是否真有线性相关关系,这就是回归效果的检验问题,称为回归方程的显著性检验。只有当“n个点落在一条直线附近”时,才能认为y与x之间可配一元线性回归方程。从统计学观点来看“n个点落在一条直线附近”就是要求E(y)是x的线性函数{E(y)=β0+βx},即在式(3-2)中β≠0,所以问题就转化为检验
H0:β=0
是否为真。若否定H0则认为所建立的回归方程式(3-4)有实际意义;若接受H0,则所建立的回归方程毫无意义。
1、 总的偏差平方和的分解
=
=
由式(3-6)可知
令
则 (3-10)
可以证明,因此反映回归值的离散程度,故称为回归平方和。而且的离散程度又是来源于x1,x2,···xn的离散性,实际上
=
= (3-11)
这里反映了x1、x2、……..xn离散的程度,从而可知, 实际上反映了由x变化所引起y的波动大小。这是通过x对y的线性相关性而引起的。
=2 反映了观测值与回归值之间的偏离,且等于Q(β0,β)的最小值。反映除了x对y的线性影响之外的剩余因素对y所引起的波动大小。故为剩余平方和(或残差平方和)。
若回归方程有意义,即引起y波动主要是由于x变化而引起的,其他一切因素是次要的。即要求尽可能大,而则尽可能小。
2. 回归方程的显著性检验(即回归方程的方差分析)
为了检验H0,很自然想到用(线性影响)与(其他影响)进行比较。在数理统计学中,用统计量F
来体现x对y的影响的相对程度。可以证明,在假设H0:β=0成立的条件下,统计量F服从第一自由度为1,第二自由度为(n-2)的F分布
即 (3-12)
显然,F值越大(即相对越大),y与x的线性相关关系越密切。对给定的显著性水平α,若F>Fα(1,n-2)则拒绝接受H0,我们称回归方程是显著的;若F≤Fα(1,n-2),则接受H0,回归方程不显著。
回归方程的显著性检验过程,可由一张“方程分析表”来进行,如表3-7所示。
表3-7 方差分析表
方差来源
偏差平方和
自由度
均方和
F值
显著性
回归
剩余
总和
例3-1的方差分析表见表3-8。
表3-8 例3-1的方差分析表
来 源
S
f
V
F值
显著性
回 归
剩 余
1
4
0.117
0.00025
468.00
**
总 计
5
注意:本题的=0.001太小了,从而导致微小误差就会引起F值的很大波动(因为很小),因此解的稳定性很差。所以,书上这一题例题出的不好!
四、一元线性回归的相关系数及其显著性检验
1、相关系数
前面所讨论的用F检验法,对回归方程进行显著性检验的方法称为方差分析,或者称为回归方程的方差分析。
文献中在讨论一元线性回归时,常应用相关系数这一重要指标来衡量两个变量(x,y)之间的线性关系的密切程度。相关系数(r)定义为:
上式中r的符号与lxy有关,而且与回归系数b符号一致。(b=lxy/lxx)
r 的绝对值总小于1,即 0≤|r|≤1
当相关系数r的值不同时,可以说明不同的情况:
(1)r=0, 此时lxy=0,∴b=0,说明x与y无线性关系。即此时y=b0+bx=b0,是平行于x轴的一条直线,说明y的变化与x无关。
(2)0<|r|<1,这是绝大多数情况,说明x与y之间存在着一定的线性关系。 当r>0时,b>0,此时称为正相关,y随x单调上升; 当r<0时,b<0,称为负相关,y随x增加单调下降。 |r|越小,说明数据点越分散;|r|越大,说明数据点越靠近回归线。
(3) |r|=1,说明所有的数据点均落在直线上,此时x与y完全线性相关。实际上,此时x与y间存在着确定的线性函数关系(不只是相关关系)。
(板书相关系数与两个变量间的关系)
需要说明的是,当r很小甚至等于0点,只表示数据点不是线性关系,并不表示x与y不成其他关系,如图E所示。
对于例3-1,=0.994;对于例3-2,==0.967。显然,两个例子的相关系数r均比较大,说明两个变量间的线性相关程度是很显著的。
那么,如果0<|r|<1,究竟|r|与1接近到什么程度才能说明x与y间存在线性相关关系呢?这就要对相关系数进行显著性检验。
2、相关系数的显著性检验
由概率论与数理统计知道,由于抽样误差的影响,一般来讲,使相关系数γ达到显著的值与抽样个数n有关。许多书上都给出了“相关系数表”,供相关系数的显著性检验使用,相关系数表与抽样个数(n)或自由度(f=n-2)有关,通常列出在两种信度α(0.05及0.01)下相关关系达到显著的最小值,超过此值时,就说x与y的相关关系在1-α水平上显著,α愈小,显著程度愈高。
由相关系数表查得,对于3-1(n=6),在α=0.05下相关系数达到显著的最小值0.811,而在α=0.01下达到显著的最小值为0.917;对于例3-2(n=10),在α=0.05下查得0.632,在α=0.01时查得0.765。因为两个例子的r分别为0.994和0.967,所以它们均在α=0.01下达到显著,或者说两个相关系数均在0.99水平上高度显著,因而在x、y之间配回归直线是合理的。
注意:相关系数检验法与F检验法,只是形式上的不同,实质上是一回事。
因为
所以
或
关于r的临界值表,可以利用上式根据F的临界值反算出来。
因为对F分布的临界值,有
则容易得到
其中,相关系数临界值与F分布临界值的关系如下:
如n=24和α=0.05时,
查相关系数临界值表得
0.3809<rα(n-2)=r0.05(22)<0.4227.
查F分布临界值表得:
Fα(1,n-2)=F0.05(1,22)=4.3.
∴ 由
计算得:
.
相关系数显著性检验表
rα α
k
0.10 0.05 0.02 0.01 0.001
α rα
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
60
70
80
90
100
0.9877
0.9000
0.8054
0.7293
0.6694
0.6215
0.5822
0.5494
0.5214
0.4973
0.4762
0.4575
0.4409
0.4259
0.4124
0.4000
0.3887
0.3783
0.3687
0.3598
0.3233
0.2960
0.2746
0.2573
0.2428
0.2306
0.2108
0.1954
0.1829
0.1726
0.1638
0.9969
0.9500
0.8783
0.8114
0.7545
0.7067
0.6664
0.6319
0.6021
0.5760
0.5529
0.5324
0.5139
0.4973
0.4821
0.4683
0.4555
0.4438
0.4329
0.4227
0.3809
0.3494
0.3246
0.3044
0.2875
0.2732
0.2500
0.2319
0.2172
0.2050
0.1946
0.9995
0.9800
0.9343
0.8822
0.8329
0.7887
0.7498
0.7155
0.6851
0.6581
0.6339
0.6120
0.5923
0.5742
0.5577
0.5425
0.5285
0.5155
0.5034
0.4921
0.4451
0.4093
0.3810
0.3578
0.3384
0.3218
0.2948
0.2737
0.2565
0.2422
0.2301
0.9999
0.9900
0.9587
0.9172
0.8745
0.8343
0.7977
0.7646
0.7348
0.7079
0.6835
0.6614
0.6411
0.6226
0.6055
0.5897
0.5751
0.5614
0.5487
0.5368
0.4869
0.4487
0.4182
0.3932
0.3721
0.3541
0.3248
0.3017
0.2830
0.2673
0.2540
0.9999
0.9990
0.9912
0.9741
0.9507
0.9249
0.8982
0.8721
0.8471
0.8233
0.8010
0.7800
0.7603
0.7420
0.7246
0.7084
0.6932
0.6787
0.6652
0.6524
0.5974
0.5541
0.5189
0.4896
0.4648
0.4433
0.4078
0.3799
0.3568
0.3375
0.3211
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
60
70
80
90
100
五、可化为一元线性回归的问题
线性回归虽然很简单,但它有很广泛的应用。即使是非线性回归问题,只要范围适当地小,也可以用线性回归解决,因为一条曲线在小范围内是可用直线段来代替的。另外,一些非线性回归问题,可用适当的变量代换化成线性回归问题。
求y对x的回归方程,一般是先根据样本值作出散点图,然后看散点图的变化趋势;如果是线性的,我们就先用线性回归;如果不是线性趋势的,我们就选用适当的曲线拟和,即将散点图与各种函数曲线进行比较。根据最相适的曲线性状,选择一函数,然后,通过变量代换将非线性回归问题化成线性回归问题,我们就可按线性回归办法解决。
例3-3(see p74~76)
六、利用一元线性回归进行预测与控制(略,见葛炎等人的专著)
1. 点预测
给定x。,由求得 y的一个点预测值。剩余标准差S=,S愈小,预测精度越高。
2. 区间预测
对给定的x。,在一定的置信度1-α下,寻找一个正数δ,使得实际观测值y。以1-α的概率落在区间内,这个区间即称为y。的置信度为1-α的预测区间。δ用t分布确定。(具体方法略)
3. 控制
控制是预测的反问题。即如果要求观测值在一定范围y1<y <y2内取值,应将变量x控制在什么范围内,也就是说,对于给定的置信度1-α,求出相应的x1和x2,使x1<x<x2时,所对应的观测值落在(y1,y2)内。
我们只讨论当n很大的情况,y的1-α预测区间近似为
由
分别解出x1和x2,即得x的控制范围
当b>0时,控制区间为(x1,x2);
当b<0时,控制区间为(x2,x1)。
其中的λ为自由度为(n-2)的t分布表的分位数。(S=;λ为查t分布表所得到的分位数,即P{|t|<λ}=1-α,f=n-2.)又∵n很大时,t(n-2)分布接近N(0,1),∴λ可用在N(0,1)表中查α/2得到的λ0代替。