第七
测评
第七章测评
(时间:120分钟 满分:150分)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.为调查中学生近视情况,随机抽取某校男生150名,女生140名,其中,男生中有80名近视,女生中有70名近视.在检验这些中学生眼睛近视是否与性别有关时,最有说服力的方法是( )
A.均值与方差
B.排列与组合
C.概率
D.独立性检验
答案D
2.(2020四川绵阳高三上月考)已知变量X,Y之间的线性回归方程Y=-0.7X+10.3,且变量X,Y之间的一组相关数据如表所示,则下列说法错误的是( )
X
6
8
10
12
Y
6
m
3
2
A.变量X,Y之间呈负相关关系
B.m=4
C.可以预测,当X=20时,Y=-3.7
D.该回归直线必过点(9,4)
答案B
解析A中,由线性回归方程Y=-0.7X+10.3知b^=-0.7<0,所以变量X,Y之间呈负相关关系,故正确;B中,因为x=14×(6+8+10+12)=9,则y=-0.7×9+10.3=4,所以y=14×(6+m+3+2)=14×(11+m)=4,解得m=5,故错误;C中,当X=20时,Y=-0.7×20+10.3=-3.7,故正确;D中,由B知,x=9,y=4,所以回归直线必过点(9,4),故正确.故选B.
3.为研究人们使用某APP是否与其学历有关联,随机抽取了50人,调查他们使用某APP的情况,并制成下面的2×2列联表:
学历
高中及以上
高中以下
总计
很少使用某APP
20
5
25
经常使用某APP
10
15
25
总计
30
20
50
则有( )的把握认为经常使用某APP与人的学历有关联.
参考公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
A.有80%的把握认为经常使用某APP与其学历有关联
B.有99%的把握认为经常使用某APP与其学历有关联
C.有95%的把握认为经常使用某APP与其学历有关联
D.有90%的把握认为经常使用某APP与其学历有关联
答案B
解析由题目中的表可知,χ2=50×(20×15-5×10)225×25×30×20≈8.333>6.635,
所以有99%的把握认为它们之间有关联.
4.用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5)的线性回归方程为Y=2X+3,若∑i=15xi=25,则∑i=15yi等于( )
A.11 B.13 C.53 D.65
答案D
解析∵∑i=15xi=25,∴x=5.代入Y=2X+3,可得y=13,∴∑i=15yi=65.
5.(2021江苏无锡一模)某词汇研究机构为对某城市人们使用流行用语的情况进行调查,随机抽取了200人进行调查统计得到下方的2×2列联表.则根据列联表可知( )
流行用语情况
年轻人
非年轻人
总计
经常用流行用语
125
25
150
不经常用流行用语
35
15
50
总计
160
40
200
参考公式:独立性检验统计量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
A.有95%的把握认为“经常用流行用语”与“年轻人”有关系
B.没有95%的把握认为“经常用流行用语”与“年轻人”有关系
C.有97.5%的把握认为“经常用流行用语”与“年轻人”有关系
D.有97.5%的把握认为“经常用流行用语”与“年轻人”没有关系
答案A
解析χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=
200×(125×15-25×35)2160×40×50×150≈4.167>3.841.所以有95%的把握认为“经常用流行用语”与“年轻人”有关系.
6.(2020陕西咸阳期末)两个变量Y与X的回归模型中,分别选择了4个不同的模型,它们的相关系数r如表,其中拟合效果最好的模型是( )
模型
模型1
模型2
模型3
模型4
相关系数r
0.48
0.15
0.96
0.30
A.模型1 B.模型2
C.模型3 D.模型4
答案C
解析在线性回归分析中,相关系数为r,|r|越接近于1,其相关程度越大;|r|越接近于0,相关程度越小;由模型3的相关系数|r|最接近于1,知其模拟效果最好.
7.某机构调查市民收入增减与购买愿望的关系时,采用独立性检验法抽查了6 000人,计算发现χ2=7.831,则根据这一数据查阅下表,该机构断言市民收入增减与购买愿望有关系的可信程度是( )
A.90% B.95% C.99% D.99.5%
答案C
解析∵χ2=7.831>6.635,∴可断言市民收入增减与购买愿望有关系的可信程度为99%,故选C.
8.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
是否发病
未发病
发病
总计
未注射疫苗
20
注射疫苗
30
总计
50
50
100
现从试验动物中任取一只,取得“注射疫苗”的概率为25,则下列判断错误的是( )
公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为23
C.有99%的把握判断注射疫苗与是否发病有关联
D.有95%的把握判断注射疫苗与是否发病有关联
答案D
解析由题知,从试验动物中任取一只,取得“注射疫苗”的概率为25,可补充列联表,
是否发病
未发病
发病
总计
未注射疫苗
20
40
60
注射疫苗
30
10
40
总计
50
50
100
故注射疫苗的动物共40只,未注射的为60只,A,B正确.
χ2=100×(20×10-40×30)260×40×50×50=16.67>6.635,
故C正确,D错误.故选D.
二、选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,有选错的得0分,部分选对的得3分.
9.(2021山东烟台模拟)在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况,结果如表所示:
性别
晕机
不晕机
合计
男
a
15
a+15
女
6
d
d+6
合计
a+6
28
46
则下列说法正确的是( )
A.aa+15>6d+6
B.χ2<2.706
C.有90%的把握认为,在恶劣气候飞行中,晕机与否跟性别有关
D.没有90%的把握认为,在恶劣气候飞行中,晕机与否跟性别有关
答案ABD
解析由2×2列联表可得a+6+28=46,得a=12;
由15+d=28,得d=13,
所以aa+15=1227=49,6d+6=619.
因为49>619,所以选项A正确;
由题可知χ2=46×(12×13-15×6)227×19×18×28≈0.775<2.706,故没有90%的把握认为,在恶劣的气候飞行中,晕机与否跟性别有关,故选项B,D正确,选项C错误.
10.(2020福建福州期中)某企业节能降耗技术改造后,在生产某产品过程中记录的产量X(单位:吨)与相应的生产能耗Y(单位:吨)的几组对应数据如表,现发现表中有个数据看不清,已知线性回归方程为Y=6.3X+6.8,下列说法正确的是( )
X
2
3
4
5
6
Y
19
25
★
38
44
A.看不清的数据★的值为34
B.回归直线Y=6.3X+6.8必经过样本点(4,★)
C.回归系数6.3的含义是产量每增加1吨,相应的生产能耗实际增加6.3吨
D.据此模型预测产量为7吨时,相应的生产能耗为50.9吨
答案AD
解析设看不清的数字为a,
计算x=15×(2+3+4+5+6)=4,
y=15×(19+25+a+38+44)=126+a5,
代入线性回归方程Y=6.3X+6.8中,
得126+a5=6.3×4+6.8,
解得a=34,所以y=32,
所以看不清的数据★的值为34,A正确;
又线性回归方程Y=6.3X+6.8过样本点(4,32),所以B错误;
回归系数6.3的含义是产量每增加1吨,相应的生产能耗预测增加6.3吨,所以C错误;
X=7时,Y=6.3×7+6.8=50.9,
所以据此模型预测产量为7吨时,相应的生产能耗为50.9吨,D正确.
11.(2020湖南常德期末)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则得到的不正确的结论是( )
A.有99%以上的把握认为“喜欢乡村音乐与性别有关”
B.有99%以上的把握认为“喜欢乡村音乐与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“喜欢乡村音乐与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“喜欢乡村音乐与性别无关”
答案BCD
解析∵χ2=8.01>6.635,∴在犯错误概率不超过0.01的前提下认为“喜欢乡村音乐与性别有关”,即有99%以上的把握认为“喜欢乡村音乐与性别有关”.
12.用旧设备和改造后的新设备冶炼某种金属,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表:
设备类别
杂质高
杂质低
旧设备
37
121
新设备
22
202
根据以上数据,则下列说法错误的是( )
A.有99%的把握判断含杂质的高低与设备改造有关
B.含杂质的高低与设备改造无关
C.新设备生产的产品中所含杂质比旧设备低
D.有99%的把握判断杂质的高低与设备改造无关
答案BCD
解析由已知数据得到如下2×2列联表:
设备类别
杂质高
杂质低
总计
旧设备
37
121
158
新设备
22
202
224
总计
59
323
382
由公式得χ2=382×(37×202-121×22)2158×224×59×323≈13.11.由于13.11>6.635,则有99%的把握判断含杂质的高低与设备改造有关.故选BCD.
三、填空题:本题共4小题,每小题5分,共20分.
13.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了检验主修统计专业是否与性别有关系,根据表中的数据,得到χ2=50(13×20-10×7)223×27×20×30≈4.844.
因为χ2≥3.841,所以断定主修统计专业与性别有关系.这种判断的把握为 .
答案95%
解析根据χ2=4.844>3.841,因此有95%的把握判断主修统计专业与性别有关系.
14.某卫生机构对366人进行健康体检,有阳性家族史者糖尿病发病的有16例,不发病的有93例,阴性家族史者糖尿病发病的有17例,不发病的有240例,那么,有 的把握判断糖尿病患者与遗传有关系.
答案95%
解析列出2×2列联表:
家族患病情况
发病
不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总计
33
333
366
χ2=366×(16×240-17×93)2109×257×33×333≈6.067>3.841,
因此,有95%的把握判断糖尿病患者与遗传有关.
15.某科研机构为了了解某种在研制的药品的指标数据Y与百分比浓度P之间的关系,随机统计了某5次实验的相关数据,并制作了对照表如下:
百分比浓度P
6
10
14
18
22
指标数据Y
62
m
44
28
14
由表中数据求得线性回归方程为Y=-3P+82.2,则m= .
答案53
解析由题意p=22+18+14+10+65=14,
y=14+28+44+m+625=148+m5,
所以148+m5=-3×14+82.2,解得m=53.
16.(2020辽宁沈阳三模)某高校有10 000名学生,其中女生3 000名,男生7 000名.为调查爱好体育运动是否与性别有关,用分层抽样的方法抽取120名学生,制成独立性检验的2×2列联表如下,则a-b= .(用数字作答)
性别
男
女
总计
爱好体育运动
a
9
####
不爱好体育运动
28
b
####
总计
####
####
120
答案29
解析根据分层抽样原理,计算抽取男生120×7 00010 000=84(人),女生120×3 00010 000=36(人),所以a=84-28=56(人),b=36-9=27(人),所以a-b=56-27=29(人).
四、解答题:本题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17.(10分)(2021安徽宿州检测)某村海拔1 500米,交通极为不便,被称为“云端上的村庄”,系建档立卡贫困村.该省政府办公厅组建了精准扶贫组进行定点帮扶,扶贫组在实地调研和充分听取群众意见后,立足当地独特优势,大力发展高山蔬菜和生态黑猪,有效带动了全村父老乡亲脱贫奔小康.村民甲在企业帮扶下签订合同,代养生态黑猪,2016年至2020年养殖黑猪的年收入Y(单位:万元)的数据如表:
年份
2016
2017
2018
2019
2020
年份代号X
1
2
3
4
5
年收入Y
5.6
6.5
7.4
8.2
9.1
(1)请根据表中的数据,用最小二乘法求出Y关于X的线性回归方程;
(2)利用(1)中的线性回归方程,预测2021年该村民养殖黑猪的年收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-^b x.
解(1)x=15×(1+2+3+4+5)=3,
y=15×(5.6+6.5+7.4+8.2+9.1)=7.36,
∑i=15(xi-x)2=4+1+0+1+4=10,∑i=15(xi-x)(yi-y)=8.7,∴b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2=8.710=0.87,
a^=y-b^ x=7.36-0.87×3=4.75,
∴Y关于X的线性回归方程为Y=0.87X+4.75;
(2)将2021年的年份代号X=6代入Y=0.87X+4.75,可得Y=0.87×6+4.75=9.97(万元).故预测2021年该村民养殖黑猪的年收入为9.97万元.
18.(12分)(2021四川广元模拟)某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分100分),记低于80的评分为“效果一般”,不低于80分为“效果较好”.
(1)请补充完整2×2列联表;通过计算判断,有没有99%的把握认为线上教学效果评分为“效果较好”与性别有关?
性别
效果一般
效果较好
总计
男
20
女
15
55
总计
(2)根据(1)中列联表的数据,在评分为“效果较好”的学生中按照性别用分层抽样的方法抽取了6名学生.若从这6名学生中随机选择2名进行访谈,求所抽取的2名学生中恰好有1名男生的概率.
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解(1)根据题意填写列联表如下:
性别
效果一般
效果较好
总计
男
25
20
45
女
15
40
55
总计
40
60
100
计算χ2=100×(25×40-15×20)245×55×40×60≈8.249>6.635,
所以有99%的把握认为线上教学效果评分为“效果较好”与性别有关.
(2)根据列联表中的数据,用分层抽样法抽取6名学生,其中男生2人,女生4人,
故所求的概率为C21C41C62=815.
19.(12分)(2021江苏连云港质检)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.下表是某市一主干路口监控设备所抓拍的1月份到5月份这5个月内驾驶员不“礼让行人”行为统计数据:
月份
1
2
3
4
5
违章驾驶员人数
120
105
100
95
80
(1)请利用所给数据求违章人数Y与月份X之间的线性回归方程Y=b^X+a^;
(2)预测该路口9月份的不“礼让行人”违章驾驶员人数;
(3)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:
驾龄
不礼让行人
礼让行人
驾龄不超过1年
24
16
驾龄1年以上
16
14
能否据此判断有90%的把握认为“礼让行人”行为与驾龄有关?
参考公式:b^=∑i=1nxiyi-nx y∑i=1nxi2-nx2=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^ x,χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d).
解(1)由表中的数据可知,x=15×(1+2+3+4+5)=3,
y=15×(120+105+100+95+80)=100,
所以b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2=1 410-1 50055-45=-9,
所以a^=y-b^ x=127,
故所求线性回归方程为Y=-9X+127;
(2)由(1)可知,Y=-9X+127,
令X=9,则Y=-9×9+127=46(人);
(3)由表中数据可得χ2=70×(24×14-16×16)240×30×40×30≈0.311<2.706,
故没有充分的证据判断“礼让行人”行为与驾龄有关.
20.(12分)据一项专题调查显示,某市高级职称知识分子中有高达75.3%的人处于亚健康状态,有85%以上的企业管理者处于慢性疲劳状态或亚健康状态.某高科技公司为了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查.该公司处于正常工作状态的员工(包括管理人员)共有10 000人,其中男性员工有6 000人,女性员工有4 000人.从10 000人中用分层抽样的方法随机抽取了500人的样本,以调查健康状况.
(1)求男性员工、女性员工各抽取多少人?
(2)通过不记名问卷调查方式,得知男员工中处于亚健康状态的有60人,女员工中处于亚健康状态的有20人,完成下列2×2列联表.
性别
健康
亚健康
总计
男
女
总计
500
问能否有99%的把握认为亚健康与性别有关?
附:χ2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d),n=a+b+c+d.
解(1)因为样本容量与总体的比例为50010 000=120,
所以男性员工应抽取6 000×120=300(人),
女性员工应抽取4 000×120=200(人);
(2)完成2×2列联表为
性别
健康
亚健康
总计
男
240
60
300
女
180
20
200
总计
420
80
500
根据列联表中的数据,得到χ2=500×(240×20-180×60)2300×200×80×420≈8.929>6.635.因此,能有99%的把握认为亚健康与性别有关.
21.(12分)(2020福建福州检测)某沙漠地区经过治理,生态系统得到改善.为调查该地区植物覆盖面积(单位:公顷)和某种野生动物的数量的关系,将该地区分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积和这种野生动物的数量,并计算得∑i=120xi=60,∑i=120yi=1 200,∑i=120(xi-x)2=80,∑i=120(yi-y)2=9 000,∑i=120(xi-x)(yi-y)=800.
(1)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01),并用相关系数说明各样区的这种野生动物的数量与植物覆盖面积的相关性.
(2)根据现有统计资料得知,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2.
解(1)样本(xi,yi)(i=1,2,…,20)的相关系数为
r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2=80080×9 000=223≈0.94,
由于0.94接近1,说明各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性.
(2)更合理的抽样方法是分层抽样.理由如下:
由(1)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异也很大,
采用分层抽样的方法能较好地保持样本结构与总体结构的一致性,提高样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
22.(12分)(2020重庆开县月考)2020年11月11日当天各大线上网站的消费额统计都创下新高,某网站为了调查线上购物时“高消费用户”是否与性别有一定关系,随机调查200个11月11日当天在该网站消费的用户,得到了如下不完整的列联表;定义11月11日当天消费不高于10 000元的用户为“非高消费用户”,消费10 000元以上的用户为“高消费用户”.
性别
高消费用户
非高消费用户
总计
男
20
女
40
总计
80
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).n=a+b+c+d.
(1)将列联表填写完整,并判断是否有99%的把握认为线上购物时“高消费用户”与性别有关.
(2)若按高消费与非高消费分层,采用分层抽样的方法从随机调查的200个用户中抽出10个人,再随机抽4人,求4人中恰有2人是高消费用户的概率.
解(1)根据题意填写列联表如下:
性别
高消费用户
非高消费用户
总计
男
20
80
100
女
60
40
100
总计
80
120
200
由列联表中数据,得χ2=200×(20×40-60×80)280×120×100×100≈33.333>6.635,所以有99%的把握认为线上购物时“高消费用户”与性别有关.
(2)采用分层抽样的方法从随机调查的200个用户中抽出10个人,其中4人是高消费用户,6人是非高消费用户,所求概率为C42C62C104=37.
12