_11
抽样
方法
总体
分布
估计
十年
高考
北京曲一线图书策划有限公司 2024版《5年高考3年模拟》A版
11.4 抽样方法与总体分布的估计
考点一 随机抽样
1.(2015湖南文,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是 ( )
A.3 B.4 C.5 D.6
答案 B 从35人中用系统抽样方法抽取7人,则可将这35人分成7组,每组5人,从每一组中抽取1人,而成绩在[139,151]上的有4组,所以抽取4人,故选B.
2.(2015北京文,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100 C.180 D.300
答案 C 本题考查分层抽样,根据样本中的青年教师有320人,且青年教师与老年教师人数的比为1 600∶900=16∶9,可以得到样本中的老年教师的人数为916×320=180,故选C.
3.(2014重庆文,3,5分)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )
A.100 B.150 C.200 D.250
答案 A 由分层抽样的特点可知703 500=n3 500+1 500,解之得n=100.
4.(2017山东文,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
答案 A 由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y=5.
由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,
故甲组数据的平均值也为66,从而有56+62+65+74+70+x5=66,解得x=3.故选A.
5.(2016山东,理3文3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
答案 D 由频率分布直方图知这200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.
6.(2016课标Ⅲ理,4,5分)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
答案 D 由雷达图易知A、C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,故B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月.故选D.
7.(2015课标Ⅱ理,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D 由柱形图可知:A、B、C均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,∴D不正确.
8.(2015陕西理,2,5分)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )
A.167 B.137 C.123 D.93
答案 B 初中部女教师的人数为110×70%=77,高中部女教师的人数为150×(1-60%)=60,则该校女教师的人数为77+60=137,故选B.
9.(2015福建文,13,4分)某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为 .
答案 25
解析 男生人数为900-400=500.设应抽取男生x人,则由45900=x500得x=25.即应抽取男生25人.
10.(2014天津理,9,5分)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取 名学生.
答案 60
解析 420×300=60(名).
11.(2012天津理,9,5分)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取 所学校,中学中抽取 所学校.
答案 18;9
解析 应从小学中抽取150150+75+25×30=18(所).
应从中学中抽取75150+75+25×30=9(所).
评析 本题考查分层抽样及数据处理能力.
12.(2012福建文,14,4分)一支田径队有男女运动员98人,其中男运动员有56人.按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是 .
答案 12
解析 男女运动员人数比例为5698−56=43,
分层抽样中男女人数比例不变,则女运动员人数为
28×37=12.故应抽取女运动员人数是12.
评析 本题考查分层抽样方法.考查学生运算求解能力.
考点二 用样本估计总体
1.(2022全国甲,理2,文2,5分,应用性)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
答案 B 对于A项,将讲座前的10个数据从小到大排列依次为60%,60%,65%,65%,70%,75%,80%,85%,90%,95%,易知这10个数据的中位数是第5个与第6个数据的平均数,为70%+75%2=72.5%>70%,故A错误;
对于B项,x后=110×(90%+85%+80%+90%+85%+85%+95%+100%+85%+100%)=89.5%>85%,故B正确;
对于C项,x前=110×(60%+60%+65%+65%+70%+75%+80%+85%+90%+95%)=74.5%,s前=110×[(60%−74.5%)2+…+(95%−74.5%)2]≈11.93%,
s后=110×[(90%−89.5%)2+…+(100%−89.5%)2]=6.5%,11.93%>6.5%,故C错误;
对于D项,讲座前问卷答题的正确率的极差为95%-60%=35%,讲座后问卷答题的正确率的极差为100%-80%=20%,20%<35%,故D错误.故选B.
2.(2021全国甲理,2,5分)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
答案 C 解题指导:利用频率分布直方图估计频率,再将频率转化为比率.
解析 由频率分布直方图可得,该地农户家庭年收入低于4.5万元和不低于10.5万元的频率分别为0.06和0.1,则农户比率分别为6%和10%,故A、B中结论正确;家庭年收入介于4.5万元和8.5万元之间的频率为0.1+0.14+0.2+0.2=0.64,故D中结论正确;
家庭年收入的平均值为0.02×3+0.04×4+0.1×5+0.14×6+0.2×7+0.2×8+0.1×9+0.1×10+0.04×11+0.02×12+0.02×13+0.02×14=7.68万元,因为7.68>6.5,所以估计该地区农户家庭年收入的平均值超过6.5万元,故C中结论不正确.故选C.
3.(多选)(2021新高考Ⅰ,9,5分)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
答案 CD A项,设x=1ni=1nxi,则y=1ni=1nyi=1ni=1n(xi+c)=1ni=1nxi+c,因为c≠0,所以y=x+c,
所以x≠y,所以A选项错误.
B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.
C项,设s12=1ni=1n(xi-x)2,s22=1ni=1n(yi-y)2,
所以s22=1ni=1n(xi+c-x-c)2=1ni=1n(xi-x)2,
所以s12=s22,
所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.
D项,设x1<x2<…<xn,则第一组数据的极差为xn-x1,
设y1<y2<…<yn,则第二组数据的极差为yn-y1=(xn+c)-(x1+c)=xn-x1,
所以两组数据的极差相同,
所以D选项正确,故选CD.
4.(2015安徽理,6,5分)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15 C.16 D.32
答案 C 设样本数据x1,x2,…,x10的标准差为s,则s=8,可知数据2x1-1,2x2-1,…,2x10-1的标准差为2s=16.
5.(2014陕西文,9,5分)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为x和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )
A.x,s2+1002 B.x+100,s2+1002
C.x,s2 D.x+100,s2
答案 D 设增加工资后10位员工下月工资均值为x',方差为s'2,则x'=110[(x1+100)+(x2+100)+…+(x10+100)]=110(x1+x2+…+x10)+100=x+100;方差s'2=110[(x1+100-x')2+(x2+100-x')2+…+(x10+100-x')2]=110[(x1-x)2+(x2-x)2+…+(x10-x)2]=s2.故选D.
6.(2011江苏,6,5分)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2= .
答案 165
解析 记星期一到星期五收到的信件数分别为x1,x2,x3,x4,x5,则x=x1+x2+x3+x4+x55=10+6+8+5+65=7.
∴s2=15[(x1-x)2+(x2-x)2+(x3-x)2+(x4-x)2+(x5-x)2]=15[(10-7)2+(6-7)2+(8-7)2+(5-7)2+(6-7)2]=165.
评析 本题主要考查方差的公式,考查学生的运算求解能力.公式记忆准确,运算无误是解答本题的关键,属中等难度题.
7.(2015湖北文,14,5分)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a= ;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 .
答案 (1)3 (2)6 000
解析 (1)由频率分布直方图可知:
0.1×(0.2+0.8+1.5+2.0+2.5+a)=1,解得a=3.
(2)消费金额在区间[0.5,0.9]内的购物者的频率为0.1×(3.0+2.0+0.8+0.2)=0.6,所以所求购物者的人数为0.6×10 000=6 000.
8.(2014江苏文,6,5分)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有 株树木的底部周长小于100 cm.
答案 24
解析 60×(0.015+0.025)×10=24(株).
9.(2019课标Ⅱ,理13文14,5分)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为 .
答案 0.98
解析 本题考查离散型随机变量的均值计算;考查抽象概括能力和运算求解能力;考查的核心素养为数学抽象和数学运算.
设经停该站高铁列车所有车次中正点率为0.97的事件为A,正点率为0.98的事件为B,正点率为0.99的事件为C,则用频率估计概率有P(A)=1010+20+10=14,P(B)=2010+20+10=12,P(C)=1010+20+10=14,所以经停该站高铁列车所有车次的平均正点率的估计值为0.97×14+0.98×12+0.99×14=0.98.
10.(2021全国乙理,17,12分)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 x和y,样本方差分别记为s12和s22.
(1)求x,y,s12,s22;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高如果y−x≥2s12+s2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高.
解析 (1)x=110×(9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10.
y=110×(10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3.
s12=110×(0.22+0.32+02+0.22+0.12+0.22+02+0.12+0.22+0.32)=0.036.
s22=110×(0.22+0.12+0.22+0.32+0.22+02+0.32+0.22+0.12+0.22)=0.04.
(2)∵y−x=10.3−10=0.3=310=1550,2s12+s2210=20.036+0.0410=2×0.007 6=7650,且1550=22550>7650,∴y−x≥2s12+s2210成立,∴认为新设备生产产品的该项指标的均值较旧设备有显著提高.
易错警示 1.要牢记数据方差的计算公式;2.注意数据计算的准确性.
11.(2022新高考Ⅱ,19,12分,应用性)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;
(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.000 1).
解析 (1)平均年龄为(5×0.001+15×0.002+25×0.012+35×0.017+45×0.023+55×0.020+65×0.017+75×0.006+85×
0.002)×10=47.9(岁).
(2)设事件A=“该地区一位这种疾病患者的年龄位于区间[20,70)”,则P(A)=1-P(A)=1-(0.001+0.002+0.006+0.002)×10=1-0.11=0.89.
(3)设事件B=“任选一人年龄位于区间[40,50)”,事件C=“任选一人患这种疾病”,由条件概率公式可得
P(C|B)=P(BC)P(B)=0.1%×0.023×1016%=0.001×0.230.16=0.001 437 5≈0.001 4.
12.(2022全国乙,理19,文19,12分,应用性)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1 2 3 4 5 6 7 8 9 10
总和
根部横截
面积xi
0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.070.06
0.6
材积量yi
0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.420.40
3.9
并计算得i=110xi2=0.038,i=110yi2=1.615 8,i=110xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数i=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2ri=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2=,1.896≈1.377.
解析 (1)估计该林区这种树木平均一棵的根部横截面积为x=0.610=0.06(m2),
平均一棵的材积量为y=3.910=0.39(m3).
(2)样本相关系数i=110(xi−x)(yi−y)i=110(xi−x)2i=110(yi−y)2ri=110(xi−x)(yi−y)i=110(xi−x)2i=110(yi−y)2=
=i=110xiyi−10xy(i=110xi2−10x2)(i=110yi2−10y2)
=0.247 4−10×0.06×0.39(0.038−10×0.062)(1.615 8−10×0.392)
=0.013 40.002×0.094 8=0.013 40.011.896≈0.013 40.013 77≈0.97.
即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97.
(3)设这种树木的根部横截总面积为X m2,总材积量为Y m3,
则XY=xy,则Y=X·yx=186×0.390.06=1 209,
所以该林区这种树木的总材积量的估计值为1 209 m3.
13.(2019课标Ⅱ文,19,12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:74≈8.602.
解析 本题考查了统计的基础知识、基本思想和方法,考查学生对频数分布表的理解与应用,考查样本的平均数,标准差等数字特征的计算方法,以及对现实社会中实际数据的分析处理能力.
(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.
产值负增长的企业频率为2100=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=1100∑i=15ni(yi-y)2
=1100[2×(-0.40)2+24×(-0.20)2+53×02+14×0.202+7×0.402]=0.029 6,
s=0.029 6=0.02×74≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
方法总结 利用频数分布表求平均数估计值的方法:各组区间中点值乘该组频数,并求和,再除以样本容量.利用频数分布表求标准差估计值的方法:用各组区间中点值代表该组,代入标准差公式即可.
14.(2016四川理,16,12分)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
解析 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,
解得a=0.30.
(2)由(1),100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
思路分析 由图易知组距为0.5,再由频率之和等于1即可求出a;由图可知前6组的频率之和为0.88>0.85,前5组的频率之和为0.73<0.85,说明x∈[2.5,3),再由0.3×(x-2.5)=0.85-0.73即可求出x.
评析 本题中求a值的关键是抓住频率之和为1,确定x在哪个区间内是解题的关键.
15.(2016北京文,17,13分)某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
解析 (1)由用水量的频率分布直方图知,
该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.(3分)
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.(5分)
依题意,w至少定为3.(6分)
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
(10分)
根据题意,该市居民该月的人均水费估计为:
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).(13分)
思路分析 第(1)问,需要计算该市居民月用水量在各区间上的频率,根据样本的频率分布直方图即可获解.
第(2)问,由月用水量的频率分布直方图和w=3可计算居民该月用水费用的数据的分组与频率分布表,由此可估计该市居民该月的人均水费.
评析 本题考查了频率分布直方图及用样本估计总体,属中档题.
16.(2015课标Ⅱ理,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53 76
78 86 95 66 97 78 88 82 76 89
B地区: 73 83 62 51 91 46 53 73 64 82
93 48 65 81 74 56 54 76 65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
A地区
B地区
4
5
6
7
8
9
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
解析 (1)两地区用户满意度评分的茎叶图如下:
A地区
B地区
4
6 8
3
5
1 3 6 4
6 4 2
6
2 4 5 5
6 8 8 6 4 3
7
3 3 4 6 9
9 2 8 6 5 1
8
3 2 1
7 5 5 2
9
1 3
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”,
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,C=CB1CA1∪CB2CA2.
P(C)=P(CB1CA1∪CB2CA2)
=P(CB1CA1)+P(CB2CA2)
=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为1620,420,1020,820,故P(CA1)=1620,P(CA2)=420,P(CB1)=1020,P(CB2)=820,P(C)=1020×1620+820×420=0.48.
17.(2015课标Ⅱ文,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
B地区用户满意度评分的频数分布表
满意度评分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频 数
2
8
14
10
6
(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大,说明理由.
解析 (1)
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.
由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,
P(CB)的估计值为(0.005+0.02)×10=0.25.
所以A地区用户的满意度等级为不满意的概率大.
18.(2015广东文,17,12分)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
解析 (1)由已知得,20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,解得x=0.007 5.
(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;
因为20×(0.002+0.009 5+0.011)=0.45<0.5,
20×(0.002+0.009 5+0.011+0.012 5)=0.7>0.5,所以中位数在区间[220,240)内.
设中位数为m,则20×(0.002+0.009 5+0.011)+0.012 5×(m-220)=0.5,解得m=224.
所以月平均用电量的中位数为224.
(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.012 5×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.
故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×2525+15+10+5=5(户).
19.(2014课标Ⅰ文,18,12分)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125)
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
解析 (1)
(2)质量指标值的样本平均数为
x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为
0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
评析 本题考查绘制频率分布直方图,计算样本的数字特征,及用样本估计总体等知识,同时考查统计的思想方法.
20.(2014北京文,18,13分)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:
组号
分组
频数
1
[0,2)
6
2
[2,4)
8
3
[4,6)
17
4
[6,8)
22
5
[8,10)
25
6
[10,12)
12
7
[12,14)
6
8
[14,16)
2
9
[16,18)
2
合计
100
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;
(2)求频率分布直方图中的a,b的值;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几