温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一堂好课
第八章
成对数据的统计分析单元检测卷【一堂好课】2021-2022学年高二数学下学期同步精品课堂人教A版2019选择性必修第三册
第八
成对
数据
统计分析
单元
检测
2021
2022
第八章 成对数据的统计分析
一、单选题
1.已知的取值如下表所示,从散点图分析,与线性相关,且,则a=( )
x
0
1
3
4
y
0.9
1.9
3.2
4.4
A. B. C. D.
2.关于相关系数,下列说法错误的是( )
A.当时,表明两个变量正相关
B.当 时,表明两个变量负相关
C.的绝对值大于时,认为两个变量有很强的线性相关性
D.的绝对值越接近于1,表明两个变量之间几乎不存在线性相关关系
3.以下四幅散点图所对应的样本相关系数的大小关系为( )
A. B. C. D.
4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若的观测值为,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
C.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
D.以上三种说法都不正确
5.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数分别如下表:
甲
乙
丙
丁
0.98
0.78
0.50
0.85
故( )同学建立的回归模型拟合效果最好.A.甲 B.乙 C.丙 D.丁
6.某公司年月至月空调销售完成情况如图所示,其中为月份,为销售量,下面四个回归方程类型中,最适合作为销售量和月份的回归方程类型的是( )
A. B. C. D.
7.若变量y与x之间的样本相关系数,则变量y与x之间( ).
A.具有很弱的线性相关关系 B.具有较强的线性相关关系
C.它们的线性相关关系还需要进一确定 D.不确定
8.甲、乙、丙、丁四位同学各自对x,y两变量的线性相关性做试验,并分别求得样本相关系数r,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则试验结果中x,y两变量有更强线性相关性的是( ).A.甲 B.乙 C.丙 D.丁
二、多选题
9.下列关于回归分析的说法中正确的是( )
A.由样本数据得到的回归直线必过样本中心点
B.甲、乙两个模型的分别约为和,则模型甲的拟合效果更好
C.若残差图中残差点比较均匀地落在水平的带状区域中,则说明选用的模型比较合适
D.回归直线就是散点图中经过样本数据点最多的那条直线
10.(多选)在线性回归模型中,下列说法不正确的是( ).
A.是一次函数
B.响应变量Y是由解释变量x唯一确定的
C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
11.某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现统计了该平台从2012年到2020年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额看成年份序号(2012年作为第1年)的函数.运用Excel软件,分别选择回归直线和三次函数回归曲线进行拟合,效果如下图,则下列说法中正确的为( )
注:其中,越接近于1,表示回归的效果越好.
A.销售额与年份序号呈正相关关系
B.销售额与年份序号线性相关不显著
C.三次函数回归曲线的拟合效果好于回归直线的拟合效果
D.根据三次函数回归曲线可以预测2021年“年货节”期间的销售额约为8454亿元
12.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下的2×2列联表(个别数据暂用字母表示):
幸福感强
幸福感弱
总计
阅读量多
18
72
阅读量少
36
78
总计
90
60
150
计算得:,参照下表:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
对于下面的选项,正确的为( )A.根据小概率值的独立性检验,可以认为“阅读量多少与幸福感强弱无关”
B.
C.根据小概率值的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”
D.
三、填空题
13.已知女儿身高y(单位:cm)关于父亲身高x(单位:cm)的经验回归方程为,当父亲身高每增加1cm,则女儿身高平均增加______.
14.给出成对值的数据如下:
1
2
4
8
3
5
9
17
则根据数据可以判断和的关系是______.(填“确定关系”“相关关系”或“没有关系”)
15.下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否知道想学专业的调查表:
知道想学专业
不知道想学专业
合计
男生
63
117
180
女生
42
82
124
合计
105
199
304
根据表中数据,下列说法正确的是______.(填序号)
①性别与知道想学专业有关;
②性别与知道想学专业无关;
③女生比男生更易知道想学专业.
附:,其中.
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
16.从某大学中随机选取8名女大学生,其身高x(单位:cm)与体重y(单位:kg)数据如下表:
x
165
165
157
170
175
165
155
170
y
48
57
50
54
64
61
43
59
若已知y与x的线性回归方程为,设残差记为观测值与预测值之间的差(即残差)那么选取的女大学生身高为175cm时,相应的残差为___________.
四、解答题
17.假设关于某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)的有关统计资料如下表所示:
使用年限x/年
2
3
4
5
6
维修费用y/万元
2.2
3.8
5.5
6.5
7.0
若由资料知y与x呈线性相关关系.
(1)求线性回归方程的回归系数,;
(2)估计当使用年限为10年时,维修费用是多少?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,.
18.总书记在党的十九大工作报告中提出,永远把人民对美好生活的向往作为奋斗目标.在这一号召的引领下,全国人民积极工作,健康生活.当前,“日行万步”正成为健康生活的代名词.为了解高一学生的肥胖是否与不喜欢步行有关,现对30名高一学生进行了问卷调查得到如下列联表:
喜欢步行
不喜欢步行
合计
肥胖
2
不肥胖
18
合计
30
已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为.
(1)请将上面的列联表补充完整;
(2)是否有99.5%的把握认为肥胖与不喜欢步行有关?说明你的理由;
参考数据:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:,其中)
19.中国职业篮球联赛(联赛)分为常规赛和季后赛.由于新冠疫情关系,今年联赛采用赛会制:所有球队集中在同一个地方比赛,分两个阶段进行,每个阶段采用循环赛,分主场比赛和客场比赛,积分排名前的球队进入季后赛.季后赛的总决赛采用五场三胜制 (“五场三胜制”是指在五场比赛中先胜三场者获得比赛胜利,胜者成为本赛季的总冠军).如表是A队在常规赛场比赛中的比赛结果记录表.
阶段
比赛场数
主场场数
获胜场数
主场获胜场数
第一阶段
30
15
20
10
第二阶段
30
15
25
15
(1)根据表中信息,补充完整列联表且是否有的把握认为比赛的“主客场”与“胜负”之间有关?
(2)已知A队与队在季后赛的总决赛中相遇,假设每场比赛结果相互独立,A队除第五场比赛获胜的概率为外,其他场次比赛获胜的概率等于A队常规赛场比赛获胜的频率.记为A队在总决赛中获胜的场数.求的分布列及期望.
附:.
0.100
0.050
0.025
2.706
3.841
5.024
20.某地区为促进青少年运动,从2010年开始新建篮球场,某调查机构统计得到如下数据.
年份x
2014
2015
2016
2017
2018
篮球场个数y百个
0.30
0.60
1.00
1.40
(1)根据表中数据求得y关于x的经验回归方程为,求表中数据和的值;
(2)预测该地区2025年篮球场的个数(单位:个).
附:可能用到的数据与公式:,,,,,.
21.数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.
年份代码x
1
2
3
4
5
市场规模y
3.98
4.56
5.04
5.86
6.36
(1)由上表数据可知,可用函数模型拟合y与x的关系,请建立y关于x的回归方程(,的值精确到0.01);
(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X,若,求X的分布列与期望.
参考数据:,,,其中.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
22.随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
年份
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
新能源乘用车年销售y(万辆)
50
78
126
121
137
352
(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
(2)若用模型拟合y与x的关系,可得回归方程为,经计算该模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,请分别利用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.
参考数据:设,其中.
144
4.78
841
5.70
37.71
380
528
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
参考答案:
1.C
【解析】
【分析】
由样本点中心得出的值.
【详解】
故选:C
2.D
【解析】
【分析】
根据相关系数的含义,逐项判定,即可求解.
【详解】
根据相关系数的含义,可得当时,表明两个变量正相关;当 时,表明两个变量负相关,的绝对值大于时,认为两个变量有很强的线性相关性;当的绝对值越接近于1时,两个变量的相关系越强,所以A、B、C正确,D错误.
故选:D.
3.A
【解析】
【分析】
根据散点图及相关系数的概念判断即可;
【详解】
解:根据散点图可知,图①③成正相关,图②④成负相关,所以,,,,
又图①②的散点图近似在一条直线上,所以图①②两变量的线性相关程度比较高,
图③④的散点图比较分散,故图③④两变量的线性相关程度比较低,即与比较大,与比较小,所以;
故选:A
4.B
【解析】
【分析】
根据独立性原理,分别判断选项中的三个命题是否正确即可.
【详解】
解:对于A,的观测值时,有的把握认为吸烟与患肺病有关系,不是指“在100个吸烟的人中必有99人患有肺病”,故A错误;
对于B,根据独立性原理知,从统计量中求出有的把握认为吸烟与患肺病有关系,是指有的可能性使得判断出现错误,B正确.
对于C,从独立性检验可知有的把握认为吸烟与患肺病有关系时,不能说某人吸烟,那么他有的可能性患有肺病,C错误.
故选:B.
5.A
【解析】
【分析】
越接近于1的回归模型拟合效果最好.
【详解】
决定系数越接近于1,表示回归模型的拟合效果越好.
由,可知甲同学建立的回归模型拟合效果最好.
故选:A.
6.B
【解析】
【分析】
由散点图符合的函数图象特征可得到结果.
【详解】
对于A,散点显然不符合一次函数的大致图象,A错误;
对于B,散点的增长幅度符合二次函数的图象特征,B正确;
对于C,以和月份为例,,,无法有一个固定的常数,使得对应的值与散点对应的值相符,即散点图不符合指数函数模型,C错误;
对于D,散点的增长幅度不符合对数函数的大致图象,D错误.
故选:B.
7.B
【解析】
【分析】
相关系数的绝对值越接近于1,越具有强大相关性,相关系数,相关系数的绝对值约接近1,得到结论.
【详解】
变量y与x之间的样本相关系数,,接近1,样本相关系数的绝对值越大,相关性越强,
∴变量y与x之间有较强的线性相关关系,
故选:B.
8.D
【解析】
【分析】
根据越接近1,相关性越强可选出答案.
【详解】
越接近1,相关性越强.
故选:D.
9.ABC
【解析】
【分析】
由回归直线的定义可判断AD选项;利用相关指数的定义可判断B选项;利用残差的定义可判断C选项.
【详解】
对于A选项,由样本数据得到的回归直线必过样本中心点,A对;
对于B选项,甲、乙两个模型的分别约为和,
模型甲的相关指数越大,则模型甲的拟合效果更好,B对;
对于C选项,若残差图中残差点比较均匀地落在水平的带状区域中,则说明选用的模型比较合适,C对;
对于D选项,回归直线必过样本中心点,但不一定过样本点,D错.
故选:ABC.
10.ABD
【解析】
【分析】
根据回归直线方程的概念,逐项判定,即可求解.
【详解】
对于A中,线性回归模型中,方程表示的不是确定性关系,因此不是一次函数,所以A说法错误;
对于B中,响应变量Y不是由解释变量x唯一确定的,所以B错误;
对于C中,响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生,所以C正确;
对于D中,随机误差是不能避免的,只能将误差缩小,所以D错误.
故选:ABD.
11.AC
【解析】
【分析】
根据散点图可得销售额与年份序号呈正相关关系,再根据相关指数的定义判断B、C,根据三次函数回归曲线,代入,即可预测2021年“年货节”期间的销售额,从而判断D;
【详解】
解:由题图可知,散点从左下到右上分布,所以销售额与年份序号呈正相关关系,A正确;
∵接近于1,∴销售额与年份序号线性相关显著,故B错误;
∵,∴三次函数回归曲线的拟合效果好于回归直线的拟合效果,C正确;
由三次函数知,当时,,故D错误.
故选:AC.
12.CD
【解析】
【分析】
根据独立性检验的思想,可判断A,C;根据列联表的数据,算出,m,n的值,判断B,C.
【详解】
对于A,,小概率值的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关” ,故A错误;
对于B, ,故B错误;
对于C,,根据小概率值的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关” ,故C正确;
对于D,,正确,
故选:CD
13.0.81 cm
【解析】
【分析】
根据线性回归方程的意义作答.
【详解】
由回归方程知,当父亲身高每增加1cm,则女儿身高平均增加0.81 cm.
故答案为:0.81 cm.
14.确定关系
【解析】
【分析】
根据两个变量的相关关系的概念分析可得答案.
【详解】
由题表中数据可以得到x,y之间是一种函数关系,函数解析式为,
所以x,y之间是一种确定的关系,即函数关系.
故答案为:确定关系.
15.②
【解析】
【分析】
计算的值,小于0.1的临界值,即可认为性别与知道想学专业无关.
【详解】
,
所以性别与知道想学专业无关,故②正确.
16.4
【解析】
【分析】
利用残差的定义直接求解.
【详解】
已知y与x的线性同归方程为
当时:,相应的残差为:
故答案为:4
17.(1),;
(2)12.38万元
【解析】
【分析】
(1)根据表中数据结合公式即可求出;
(2)将代入回归方程即可求出.
(1)
由表中数据可得,
则,
,
所以,;
(2)
回归直线方程为,则当时,,
所以估计当使用年限为10年时,维修费用是12.38万元.
18.(1)列联表见解析
(2)有99.5%的把握认为肥胖与不喜欢步行有关,理由见解析
【解析】
【分析】
(1)由已知数据计算可得列联表;
(2)由列联表数据计算可得结论.
(1)
不喜欢步行
喜欢步行
合计
肥胖
2
6
8
不胖
18
4
22
合计
20
10
30
(2)
由已知数据可求得:≈8.522>7.879
因此有99.5%的把握认为肥胖与不喜欢步行有关.
19.(1)表格见解析,没有的把握认为比赛的“主客场”与“胜负”之间有关
(2)分布列见解析,
【解析】
【分析】
(1)作出2×2列联表,计算 的值,对照临界值表进行分析判断即可;
(2)先求出随机变量X的可能取值,然后求出其对应的概率,列出分布列即可;再根据期望的计算公式求得期望.
(1)
根据表格中的信息,得到列联表如下:
A队胜
A队负
合计
主场
25
5
30
客场
20
10
30
合计
45
15
60
则,
所以没有的把握认为比赛的“主客场”与“胜负”之间有关;
(2)
的可能取值为0,1,2,3,A队前4场中每场获胜的概率均为,
所以,,,
,
故的分布列为:
0
1
2
3
数学期望为:.
20.(1);
(2)424个
【解析】
【分析】
(1)由最小二乘法,根据即可求出,再由即可求出的值;
(2)由(1)知,,将代入即可解出.
(1)
由题意可得,,
,则;
因此,故.
(2)
由(1)知,,所以当x=2025时,,因此预测该地区2025年篮球场约有424个.
21.(1)
(2)分布列见解析;期望为
【解析】
【分析】
(1)根据题意,进而结合已知数据和公式计算即可得;
(2)由题意知,再根据二项分布概率公式,结合得,再根据二项分布概率公式求解分布列与期望.
(1)
解:设,则,
因为,,,
所以.
把代入,得.
即关于的回归方程为.
(2)
解:由题意知,
,,
由得
所以,的取值依次为0,1,2,3,4,
,,
,,
,
所以X的分布列为
X
0
1
2
3
4
P
22.(1)
(2)当回归方程为时,2022年我国新能源乘用车的年销售量的预测值是万辆;
当回归方程为时,2022年我国新能源乘用车的年销售量的预测值是万辆.
(3)由于相关指数越接近于,两个变量之间的关系就强,相应的拟合程度也越好,
所以模型得到的预测值更可靠.
【解析】
【分析】
(1)根据表中数据和参考数据,得出,,,的值,
运用最小二乘法求回归直线方程即可;
(2)根据回归方程,代入的值即可求出预测值;
(3)相关指数越接近,两变量的相关性越强,预测值越可靠.
(1)
由表中数据得,
,,,
,
y关于x的线性回归方程为:.
(2)
由(1)知,y关于x的线性回归方程为:,
当时,2022年我国新能源乘用车的年销售量的预测值:
(万辆);
对于回归方程,
当时,2022年我国新能源乘用车的年销售量的预测值:
(万辆).
(3)
依题意:模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,
由于相关指数越接近于,两个变量之间的关系就强,相应的拟合程度也越好,
所以模型得到的预测值更可靠.
原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司