温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
全免费
2019年数学新同步湘教版选修2-3讲义+精练:第8章
8.5
一元线性回归案例
Word版含解析数学备课大师【全免费】
2019
数学
同步
湘教版
选修
讲义
精练
一元
线性
回归
案例
“备课大师”全科【9门】:免注册,不收费!
8.5一元线性回归案例
[读教材·填要点]
1.相关系数
(1)定义:样本容量是n的成对观测数据,用(x1,y1),(x2,y2),…,(xn,yn)表示,用表示数据x1,x2,…,xn,用表示数据y1,y2,…,yn,用与分别表示和的均值,用sx表示的标准差,用sy表示的标准差,
再引入:sxy=- .
当sxsy≠0时,称rxy= =
=为和的相关系数.
①当rxy>0时,我们称和正相关;
②当rxy<0时,我们称和负相关;
③当rxy=0时,我们称和不相关.
(2)性质:
①rxy总在区间[-1,1]中取值;
②当rxy越接近于1时,x,y的线性相关程度越强,且x增加,y也倾向于增加,这时数据(x1,y1),(x2,y2),…,(xn,yn)分散在一条上升的直线附近.
③当rxy越接近于-1时,x,y的线性相关程度越强,且x增加,y倾向于减少,这时数据(x1,y1),(x2,y2),…,(xn,yn)分散在一条下降的直线附近.
④当rxy越接近于0时,x,y的线性相关程度越弱.
2.一元线性回归
(1)回归直线方程:l:=bx+a,其中b=,
a=-b .
(2)一元线性回归模型:
若样本量n的成对观测数据
(x1,y1),(x2,y2),…,(xn,yn)中yi和xi满足关系:yi=bxi+a+ei(i=1,2,…,n,),其中e1,e2,…,en表示随机误差,则称该模型为一元线性回归模型.
[小问题·大思维]
1.|rxy|越接近1,及越接近于0,表示两个变量x与y之间线性相关程度如何?
提示:|rxy|越接近1,表明两个变量的线性相关程度越强,它们的散点图越接近于一条直线,这时用线性回归模型拟合这组数据的效果就越好;|rxy|越接近0,表明两个变量的线性相关程度越弱,通常|rxy|>0.8时,认为有很强的相关关系.
2.在一元线性回归模型中,变量y由变量x唯一确定吗?
提示:不唯一.y值由x和随机误差e共同确定,即自变量x只能解释部分y的变化.
3.随机误差e产生的主要原因有哪些?
提示:随机误差e产生的主要原因有:
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
4.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?为什么?
提示:不一定是真实值.利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等.
线性回归方程
[例1] 某班5名学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
[解] (1)散点图如图.
(2)=×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8.
iyi=88×78+76×65+73×71+66×64+63×61
=25 054.
=882+762+732+662+632=27 174.
所以b=
=
≈0.625.
a=-b≈67.8-0.625×73.2=22.05.
所以y对x的回归直线方程是y=22.05+0.625x.
(3)x=96,则y=0.625×96+22.05≈82,
即可以预测他的物理成绩是82.
1.回归直线方程中系数的两种求法
(1)公式法:利用公式,求出回归系数b,a.
(2)待定系数法:利用回归直线过样本点中心(,)求系数.
2.回归分析的两种策略
(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.
(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b.
1.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y=bx+a中,b=,a=-b,其中,为样本平均值.
解:(1)由题意知n=10,=i==8,
=i==2.
又-n2=720-10×82=80,
iyi-n =184-10×8×2=24,
由此可得b===0.3,
a=-b=2-0.3×8=-0.4,
故所求回归方程为y=0.3x-0.4.
(2)由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).
相关系数
[例2] 关于两个变量x和y的7组数据如下表所示:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
试判断x与y之间是否有线性相关关系.
[解] =×(21+23+25+27+29+32+35)≈27.4,
=×(7+11+21+24+66+115+325)≈81.3,
=212+232+252+272+292+322+352=5 414,
iyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,
=72+112+212+242+662+1152+3252=124 393,
∴r=
=
≈0.837 5.
由于r≈0.837 5与1比较接近,
∴x与y具有线性相关关系.
回归分析是定义在具有相关关系的两个变量的基础上的,对于相关关系不明确的两个变量,可先作散点图,由图粗略的分析它们是否具有相关关系,在此基础上,求其回归方程,并作回归分析.
2.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x
2
4
6
8
y
30
40
50
70
判断x与y之间是否存在线性相关关系.
解:画出(x,y)的散点图,如图所示,由图可知x,y呈现线性相关关系.
=5,=47.5,=120,
=9 900,iyi=1 080,
r=
=
≈0.982 7.
故x与y之间存在线性相关关系.
可线性化的回归分析问题
[例3] 为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:
时间x/天
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)作出这些数据的散点图;
(2)求y与x之间的回归方程.
[解] (1)散点图如图所示:
(2)由散点图看出样本点分布在一条指数函数y=c1e图像的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算器算得z=0.69x+1.112,则有y=e0.69x+1.112.
非线性回归问题一般不给出经验公式,这时,应先画出已知数据的散点图,把它与所学过的各种函数图像作比较,挑选一种跟这些散点图拟合得最好的函数,采用适当的变量置换,把问题化为线性回归分析问题,使问题得以解决.
3.在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
解:由数值表可作散点图如下
根据散点图可知y与x近似地呈反比例函数关系,
设y=,令t=,则y=kt,原数据变为
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系.列表如下
i
ti
yi
tiyi
t
y
1
4
16
64
16
256
2
2
12
24
4
144
3
1
5
5
1
25
4
0.5
2
1
0.25
4
5
0.25
1
0.25
0.0625
1
∑
7.75
36
94.25
21.312 5
430
所以=1.55,=7.2.
所以b==4.134 4.
a=y-bt=0.8.
所以y=0.8+4.134 4t.
所以y对x的回归方程是y=0.8+.
1.下列说法中正确的是( )
A.y=2x2+1中的x,y是具有相关关系的两个变量
B.正四面体的体积与其棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染甲型H1N1流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量
解析:选D 感染的医务人员不仅受医院收治的病人数的影响,还受防护措施等其它因素的影响.
2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )
A.x和y的相关系数为直线l的斜率
B.x和y的相关系数在0到1之间
C.当n为偶数时,分布在l两侧的样本点的个数一定相同
D.直线l过点(,)
解析:选D 回归直线过样本中心点(,).
3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为( )
A.=x-1 B.=x+1
C.=88+x D.=176
解析:选C 设y对x的线性回归方程为=bx+a,
因为b==,
a=176-×176=88,
所以y对x的线性回归方程为=x+88.
4.在关于两个变量的回归分析中,作散点图的目的是________________________.
答案:观察两个变量之间是否存在线性相关关系
5.某服装厂的产品产量x(万件)与单位成本y(元/件)之间的回归直线方程是y=52.15-19.5x,当产量每增加一万件时,单位成本下降________元.
解析:由回归系数的意义得下降19.5元.
答案:19.5
6.在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为:
1
2
3
4
5
价格x
1.4
1.6
1.8
2
2.2
需求量y
12
10
7
5
3
已知iyi=62,=16.6.
(1)画出散点图;
(2)求出y对x的回归方程;
(3)如价格定为1.9万元,预测需求量大约是多少?(精确到0.01 t).
解:(1)散点图如下图所示:
(2)因为=×9=1.8,=×37=7.4,
iyi=62,=16.6,
sxy=- =12.4-13.32=-0.92.
所以b===-11.5,
a=-b=7.4+11.5×1.8=28.1,
故y对x的回归方程为=28.1-11.5x.
(3)=28.1-11.5×1.9=6.25(t).
一、选择题
1.下表是x与y之间的一组数据,则y关于x的线性回归方程必过( )
x
0
1
2
3
y
1
3
5
7
A.点(2,2) B.点(1.5,2)
C.点(1,2) D.点(1.5,4)
解析:选D ===1.5,
==4,
∴线性回归方程必过点(1.5,4).
2.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析:选C 因为y=-0.1x+1的斜率小于0,
故x与y负相关.因为y与z正相关,
可设z=y+,>0,
则z=y+=-0.1x++,
故x与z负相关.
3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量都为20.90%
B.年龄为37岁的人体内脂肪含量为21.01%
C.年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%
D.年龄为37岁的大部分的人体内脂肪含量为31.5%
解析:选C 当x=37时,y=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%.
4.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:选B 样本中心点是(3.5,42),则a=-b=42-9.4×3.5=9.1,所以回归直线方程是y=9.4x+9.1,把x=6代入得y=65.5.
二、 填空题
5.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:以x+1代x,得y=0.254(x+1)+0.321,与y=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.
答案:0.254
6.下表是某厂1~4月份用水量(单位:百吨)的一组数据,
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由某散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归方程是=-0.7x+a,则a=________.
解析:=2.5,=3.5,b=-0.7,
∴a=3.5+0.7×2.5=5.25.
答案:5.25
7.已知回归直线的斜率的估计值为1.23.样本点的中心为(4,5),则回归直线方程是________________.
解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y-5=1.23(x-4),
即=1.23x+0.08.
答案:=1.23x+0.08
8.在研究硝酸钠的可溶性程度时,观察它在不同温度的水中的溶解度,得观测结果如下:
温度(x)
0
10
20
50
70
溶解度(y)
66.7
76.0
85.0
112.3
128.0
由此,得到回归直线的斜率是________.
解析:根据sxy=- ,及b=,
得b=0.880 9.
答案:0.880 9
三、解答题
9.在关于人体的脂肪含量(百分比)和年龄关系研究中,研究人员获得了如下一组数据:
年龄x
22
26
38
41
45
48
50
53
54
56
57
脂肪含量y
9.4
17.8
21.2
24.9
26.5
27.1
28.2
29.4
30.2
31.4
32.6
(1)画出散点图;
(2)求y与x之间的回归方程;
(3)预测39岁的人脂肪含量.(保留四位有效数字)
解:(1)画出散点图
(2)由散点图可以看出y与x之间有较强的线性相关关系,
可算得=i≈44.545 5,
=i≈25.336 4,iyi=13 205,
=23 224,
∴b=≈0.565 7,
a=-b ≈0.137 0.
∴y与x之间的线性回归方程为=0.565 7x+0.137 0.
(3)当x=39时,
y=0.565 7×39+0.137 0≈22.20,
∴39岁的人的脂肪含量约为22.20%.
10.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r= ,
回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
解:(1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,
=0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2018年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2018年我国生活垃圾无害化处理量将约为1.82亿吨.
“备课大师”全科【9门】:免注册,不收费!