十年高考
第09章
统计与成对数据分析-【十年高考】备战2023年高考数学真题分类解析与应试策略Word版
09
统计
成对
数据
分析
十年
高考
备战
2023
年高
数学
分类
解析
应试
策略
第九章 统计与成对数据分析
§9.1 随机抽样与统计图表
考点
2013~2017年
2018年
2019年
2020年
2021年
2022年
合计
全国
地方
全国
地方
全国
地方
全国
地方
全国
地方
全国
地方
全国
地方
卷
卷
卷
卷
卷
卷
卷
卷
卷
卷
卷
卷
卷
卷
106.随机抽样
0
6
0
0
1
0
0
0
0
0
0
0
1
6
107.样本的数字特征
4
3
0
0
2
0
3
2
3
0
1
0
13
5
108.频率分布直方图
3
7
1
0
1
0
0
1
1
1
0
0
6
9
109.其他统计图表信息题
3
2
1
0
1
0
0
2
0
0
0
0
5
4
命题分析与备考建议
(1)命题热度:本专题是历年高考命题必考的内容(
),属于中低档题目,三种题型都有考查,命题的重点是社会热点问题、高科技、五育等情境之下的统计图表
中数据分析问题.
(2)考查方向:一是抽样方法,主要与其它知识,如古典概型的求解、样本数据数字特征计算等相结合进行考查;二是频率分布直方图与茎叶图,这是高考命题的重点,样
本数据的采集与分析是热点;三是样本的数字特征,主要考查用样本估计总体.
(3)明智备考:一是要掌握数据的统计方式,特别是样本频率分布直方图,要注意其纵轴的单位;二是要学会样本数据数字特征的求解及其应用,准确计算是解决问题的基础;三是掌握用样本估计总体的数学思想,建立样本与总体数据之间的对应.要精准把握命题意图,找到解题的金钥匙(
).
(4)主编提示:该部分属于高考必考内容,命题的关注点在于社会生产生活中的实际
问题情境下的统计图表的识别、数据的抽取与应用,考查数据分析、数学运算、逻辑推理的核心素养,高三备考,要“三学”:学会识别各种统计图表、学会提取有用的数据、
学会用样本估计总体!!!
考点106随机抽样
1.(2019·全国1,文6,5分,难度★★)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( C )
A.8号学生 B.200号学生
C.616号学生 D.815号学生
解析 由已知得将1 000名新生分为100个组,每组10名学生,用系统抽样46号学生被抽到,
则第一组应为6号学生,
所以每组抽取的学生号构成等差数列{an},
所以an=10n-4,n∈N*,
若10n-4=8,则n=1.2,不合题意;
若10n-4=200,则n=20.4,不合题意;
若10n-4=616,则n=62,符合题意;
若10n-4=815,则n=81.9,不合题意.故选C.
2.(2015·北京,文4,5分,难度★★)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( C )
类 别
人 数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100 C.180 D.300
解析 由已知分层抽样中青年教师的抽样比为3201600=15,
由分层抽样的性质可得老年教师的抽样比也等于15,
所以样本中老年教师的人数为900×15=180.故选C.
分层抽样问题类型及解题思路
(1)求某层应抽个体数量:根据该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量:根据分层抽样即按比例抽样,列比例式进行计算.
(3)确定是否应用分层抽样:判断总体中的个体差异情况,因为分层抽样适用于总体中个体差异较大的情况.
3.(2014·重庆,文3,5分,难度★★)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( A )
A.100 B.150
C.200 D.250
解析 由题意知,抽样比为703500=150,
所以n3500+1500=150,即n=100.故选A.
4.(2017·江苏,3,5分,难度★★)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取 件.
答案 18
解析 抽取比例为601000=350,故应从丙种型号的产品中抽取300×350=18(件).
5.(2015·福建,文13,5分,难度★★)某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为 .
答案 25
解析 设男生抽x人.女生有400人,男生有500人,则x=500×45900=25.
6.(2014·天津,理9,5分,难度★★)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取 名学生.
答案 60
解析 依题意知,应从一年级本科生中抽取44+5+5+6×300=60(名).
考点107样本的数字特征
1.(2022·全国甲,理2文2,5分,难度★★)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( B )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
解析 本题考查统计表、平均数、中位数、极差及标准差、用样本估计总体.
对于A,中位数为(70%+75%)÷2=72.5%>70%,A错误;对于B,平均数为89.5%>85%,B正确;对于C,从图中可以看出,讲座前问卷答题的正确率的波动幅度要大于讲座后问卷答题的正确率的波动幅度,故C错误;对于D,讲座后问卷答题的正确率的极差为20%,讲座前问卷答题的正确率的极差为35%,D错误.故选B.
2.(多选题)(2021·全国新高考1,9,5分,难度★★)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( CD )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
解析 x=1n∑i=1nxi,y=1n∑i=1nxi+nc=x+c,故A错误;两组样本数据的样本中位数相差c,故B错误;sx2=1n∑i=1n(xi-x)2,sy2=1n∑i=1n[(xi+c)-(x+c)]2=sx2,故C正确;x极差=xmax-xmin,y极差=(xmax+c)-(xmin+c)=xmax-xmin,故D正确.
3.(多选题)(2021·全国新高考2,9,5分,难度★)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是( AC )
A.样本x1,x2,…,xn的标准差
B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差
D.样本x1,x2,…,xn的平均数
解析 本题考查数据的特征.由标准差与极差的定义可知,标准差与极差刻画的是数据的离散程度;由中位数与平均数的定义可知,中位数与平均数刻画的是数据的集中趋势,故选AC.
4.(2020·全国3,文3,5分,难度★★)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( C )
A.0.01 B.0.1 C.1 D.10
解析 设x1,x2,…,xn的平均数为x,方差为s2,10x1,10x2,…,10xn的平均数为x',方差为s'2,则s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2],x'=10x,故s'2=1n[(10x1-x')2+(10x2-x')2+…+(10xn-x')2]=1n[(10x1-10x)2+(10x2-10x)2+…+(10xn-10x)2]=102×s2,又s2=0.01,故s'2=100×0.01=1.故选C.
5.(2020·全国3,理3,5分,难度★★)在一组样本数据中,1,2,3,4出现的频率分别为p1,p2,p3,p4,且∑i=14pi=1,则下面四种情形中,对应样本的标准差最大的一组是( B )
A.p1=p4=0.1,p2=p3=0.4
B.p1=p4=0.4,p2=p3=0.1
C.p1=p4=0.2,p2=p3=0.3
D.p1=p4=0.3,p2=p3=0.2
解析 四个选项的数据都具有对称性,平均数均为2.5,其中B选项的数据中,极端值最多,数据波动程度最大,故选B.
6.(2020·山东,5,5分,难度★★)某中学的学生积极参加体育锻炼,其中有96%的学生喜欢足球或游泳,60%的学生喜欢足球,82%的学生喜欢游泳,则该中学既喜欢足球又喜欢游泳的学生数占该校学生总数的比例是( C )
A.62% B.56% C.46% D.42%
解析 设既喜欢足球又喜欢游泳的学生比例数为x.
由维恩图可知,82%-x+60%=96%,
解得x=46%,故选C.
7.(2019·全国2,理5,5分,难度★★)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( A )
A.中位数 B.平均数 C.方差 D.极差
解析 设9位评委的评分按从小到大排列为x1<x2<x3<x4<…<x8<x9.对于A,原始评分的中位数为x5,去掉最低分x1,最高分x9后,剩余评分的大小顺序为x2<x3<…<x8,中位数仍为x5,故A正确;对于B,原始评分的平均数x=19(x1+x2+…+x9),有效评分的平均数x'=17(x2+x3+…+x8),因为平均数受极端值影响较大,所以x与x'不一定相同,故B不正确;对于C,原始评分的方差s2=19[(x1-x)2+(x2-x)2+…+(x9-x)2],有效评分的方差s'2=17[(x2-x')2+(x3-x')2+…+(x8-x')2],由B易知,C不正确;对于D,原始评分的极差为x9-x1,有效评分的极差为x8-x2,显然极差变小,故D不正确.
8.(2015·安徽,理6,5分,难度★★★)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( C )
A.8 B.15 C.16 D.32
解析 设数据x1,x2,…,x10的平均数为x,标准差为s,则2x1-1,2x2-1,…,2x10-1的平均数为2x-1,方差为
[(2x1-1)-(2x-1)]2+[(2x2-1)-(2x-1)]2+…+[(2x10-1)-(2x-1)]210
=4(x1-x)2+4(x2-x)2+…+4(x10-x)210
=4s2,因此标准差为2s=2×8=16.故选C.
9.(2020·江苏,3,5分,难度★★)已知一组数据4,2a,3-a,5,6的平均数为4,则a的值是 .
答案 2
解析 本题考查平均数的计算.
由已知,得15×[4+2a+(3-a)+5+6]=4,解得a=2.
10.(2019·全国2,理13文14,5分,难度★★)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为 .
答案 0.98
解析 由题意,得经停该高铁站的列车的正点数约为10×0.97+20×0.98+10×0.99=39.2,其中车次数为10+20+10=40,所以经停该站高铁列车所有车次的平均正点率的估计值为39.240=0.98.
11.(2021·全国乙,理17文17,12分,难度★★★)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为s12和s22.
(1)求x,y,s12,s22;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高如果y-x≥2s12+s2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高.
解 (1)由题中数据可得,x=110×(9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10,
y=110×(10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3,
s12=110×[(9.8-10)2+(10.3-10)2+(10.0-10)2+(10.2-10)2+(9.9-10)2+(9.8-10)2+(10.0-10)2+(10.1-10)2+(10.2-10)2+(9.7-10)2]=0.036;
s22=110×[(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2+(10.3-10.3)2+(10.6-10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.
(2)因为y-x=10.3-10=0.3,
2s12+s2210=20.036+0.0410=20.0076≈0.174,
所以y-x>2s12+s2210,
故新设备生产产品的该项指标的均值较旧设备有显著提高.
12.(2020·全国1,文17,12分,难度★★★)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:
甲分厂产品等级的频数分布表
等级
A
B
C
D
频数
40
20
20
20
乙分厂产品等级的频数分布表
等级
A
B
C
D
频数
28
17
34
21
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?
解 (1)由试加工产品等级的频数分布表知,
甲分厂加工出来的一件产品为A级品的概率的估计值为40100=0.4;
乙分厂加工出来的一件产品为A级品的概率的估计值为28100=0.28.
(2)由数据知甲分厂加工出来的100件产品利润的频数分布表为
利润
65
25
-5
-75
频数
40
20
20
20
因此甲分厂加工出来的100件产品的平均利润为
65×40+25×20−5×20−75×20100=15.
由数据知乙分厂加工出来的100件产品利润的频数分布表为
利润
70
30
0
-70
频数
28
17
34
21
因此乙分厂加工出来的100件产品的平均利润为
70×28+30×17+0×34−70×21100=10.
比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务.
13.(2017·全国1,文19,12分,难度★★★)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取
次序
1
2
3
4
5
6
7
8
零件
尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取
次序
9
10
11
12
13
14
15
16
零件
尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得x=116∑i=116xi=9.97,s=116∑i=116(xi-x)2=116(∑i=116xi2-16x2)≈0.212,∑i=116(i-8.5)2≈18.439,∑i=116(xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2.0.008≈0.09.
解 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=∑i=116(xi-x)(i-8.5)∑i=116(xi-x)2∑i=116(i-8.5)2=-2.780.212×16×18.439≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(ⅰ)由于x=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产过程进行检查.
(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i=116xi2=16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为115(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.
14.(2017·全国3,文18,12分,难度★★★)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高
气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.
解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表格数据知,最高气温低于25的频率为2+16+3690=0.6,所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.
(2)当这种酸奶一天的进货量为450瓶时,
若最高气温不低于25,
则Y=6×450-4×450=900;
若最高气温位于区间[20,25),
则Y=6×300+2(450-300)-4×450=300;
若最高气温低于20,
则Y=6×200+2(450-200)-4×450=-100.
所以,Y的所有可能值为900,300,-100.
Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为36+25+7+490=0.8,
因此Y大于零的概率的估计值为0.8.
15.(2016·全国1,文19,12分,难度★★★)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
解 (1)当x≤19时,y=3 800;
当x>19时,y=3 800+500(x-19)=500x-5 700.
所以y与x的函数解析式为
y=3800,x≤19,500x-5700,x>19,(x∈N).
(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4 300×20+4 800×10)=4 000.
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为1100(4 000×90+4 500×10)=4 050.
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
16.(2016·全国2,文18,12分,难度★★★)某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:
上年度出
险次数
0
1
2
3
4
≥5
保费
0.85a
a
1.25a
1.5a
1.75a
2a
随机调查了该险种的200名续保人在一年内的出险情况,得到如下统计表:
出险
次数
0
1
2
3
4
≥5
频数
60
50
30
30
20
10
(1)记A为事件:“一续保人本年度的保费不高于基本保费”,求P(A)的估计值;
(2)记B为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”.求P(B)的估计值;
(3)求续保人本年度平均保费的估计值.
解 (1)事件A发生当且仅当一年内出险次数小于2.
由所给数据知,一年内出险次数小于2的频率为60+50200=0.55,故P(A)的估计值为0.55.
(2)事件B发生当且仅当一年内出险次数大于1且小于4.
由所给数据知,一年内出险次数大于1且小于4的频率为30+30200=0.3,故P(B)的估计值为0.3.
(3)由所给数据得
保费
0.85a
a
1.25a
1.5a
1.75a
2a
频率
0.30
0.25
0.15
0.15
0.10
0.05
调查的200名续保人的平均保费为
0.85a×0.30+a×0.25+1.25a×0.15+1.5a×0.15+1.75a×0.10+2a×0.05=1.192 5a.
因此,续保人本年度平均保费的估计值为1.192 5a.
17.(2014·湖南,文17,12分,难度★★★)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:
(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b)
其中a,a分别表示甲组研发成功和失败;b,b分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
解 (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,其平均数为x甲=1015=23;
方差为s甲2=1151−232×10+0−232×5=29.
乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为x乙=915=35;
方差为s乙2=1151−352×9+0−352×6=625.
因为x甲>x乙,s甲2<s乙2,
所以甲组的研发水平优于乙组.
(2)记E={恰有一组研发成功}.
在所抽得的15个结果中,恰有一组研发成功的结果是(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),共7个.
故事件E发生的频率为715.
将频率视为概率,即得所求概率为P(E)=715.
考点108频率分布直方图
1.(2021·全国甲,理2文2,5分,难度★★)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( C )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
解析 该地农户家庭年收入低于4.5万元的农户比率估计为(0.02+0.04)×1=6%,A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计为(0.04+0.02+0.02+0.02)×1=10%,B正确;
该地农户家庭年收入的平均值为0.02×3+0.04×4+0.1×5+0.14×6+0.2×7+0.2×8+0.1×9+0.1×10+0.04×11+0.02×12+0.02×13+0.02×14=7.68,C不正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比率为(0.1+0.14+0.2+0.2)×1=64%,D正确.
2.(2021·天津,4,5分,难度★★)从某网络平台推荐的影视作品中抽取400部,统计其评分数据,将所得400个评分数据分为8组:[66,70),[70,74),…,[94,98],并整理得到如下的频率分布直方图,则评分在区间[82,86)内的影视作品数量为( D )
A.20 B.40 C.64 D.80
解析 由频率分布直方图可得评分在区间[82,86)内的频率为0.050×4=0.2,所以影视作品数量为:0.2×400=80,故选D.
3.(2020·天津,4,5分,难度★★)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( B )
A.10 B.18 C.20 D.36
解析 在[5.43,5.47]的频率为(6.25+5.00)×0.02=0.225,∴0.225×80=18.故选B.
4.(2016·山东,理3文3,5分,难度★★)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( D )
A.56 B.60 C.120 D.140
解析 自习时间不少于22.5小时为后三组,其频率和为(0.16+0.08+0.04)×2.5=0.7,故人数为200×0.7=140,选D.
5.(2015·湖北,文14,5分,难度★★★)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a= ;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 .
答案 (1)3 (2)6 000
解析 (1)由频率分布直方图,得(1.5+2.5+a+2.0+0.8+0.2)×0.1=1,解得a=3;
(2)消费金额在[0.5,0.9]的购物者的人数为10 000×(1-1.5×0.1-2.5×0.1)=10 000×0.6=6 000.
6.(2014·江苏,文6,5分,难度★★)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有 株树木的底部周长小于100 cm.
答案 24
解析 底部周长小于100 cm的株数为(0.015+0.025)×10×60=24.
7.(2019·全国3,理17文17,12分,难度★★★)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
甲离子残留百分比直方图
乙离子残留百分比直方图
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解 (1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
8.(2018·全国1,文19,12分,难度★★★)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用
水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
频数
1
3
2
4
日用
水量
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
频数
1
5
13
日用水量
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
10
16
5
(1)在下图作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)
解 (1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为x1=150(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为x2=150(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
9.(2017·北京,文17,13分,难度★★★★)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数