_11
变量
相关
关系
统计
案例
分层
集训
高考数学,专题十一概率与统计11.5变量间的相关关系、统计案例,考点一变量间的相关关系,1.(2023届广东东莞四中月考,5)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()A.r2r40r3r1B.r2r40r1r3C.r4r20r3r1D.r4r20r1r3,答案A,2.(多选)(2023届山东潍坊五县联考,10)下列说法正确的是()A.经验回归直线=x+至少经过样本点数据中的一个点B.若经验回归直线方程为=1.1x-5,则当x每增大一个单位时,增大1.1个单位C.设两个变量x,y之间的线性相关系数为r,则|r|=1的充要条件是成对数据构成的点都在经验回归直线上D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好答案CD,3.(2020课标,文5,理5,5分)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,20)得到下面的散点图:由此散点图,在10 至40 之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2,C.y=a+bexD.y=a+bln x答案D,4.(2017山东理,5,5分)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163C.166D.170答案C,5.(多选)(2022山东济宁一中开学考试,10)给出以下四个说法,其中正确的说法是()A.如果由一组样本数据(x1,y1),(x2,y2),(xn,yn)得到经验回归方程=x+,那么经验回归直线至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个B.在回归分析中,用决定系数R2来比较两个模型拟合效果,R2越大,表示残差平方和越小,即模型的拟合效果越好C.在经验回归方程=-0.5x+0.7中,当解释变量x每增加一个单位时,响应变量平均增加0.5个单位D.若变量y和x之间的相关系数为r=-0.987 2,则变量y和x之间的负线性相关很强答案BD,6.(2022全国乙,理19,文19,12分)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:,并计算得=0.038,=1.615 8,xiyi=0.247 4.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=,1.377.,解析(1)估计该林区这种树木平均一棵的根部横截面积为=0.06(m2),平均一棵的材积量为=0.39(m3).(2)样本相关系数r=0.97.,即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97.(3)设这种树木的根部横截总面积为X m2,总材积量为Y m3,则=,则Y=1 209,所以该林区这种树木的总材积量的估计值为1 209 m3.,7.(2020课标,文18,理18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(xi,yi)(i=1,2,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为,更合理的抽样方法,并说明理由.附:相关系数r=,1.414.,解析(1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60200=12 000.(2)样本(xi,yi)(i=1,2,20)的相关系数r=0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结,构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.,考点二独立性检验,1.(2021全国甲,文17,理17,12分)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:,(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=,.,解析(1)因为甲机床生产的200件产品中有150件一级品,所以甲机床生产的产品中一级品的频率为=,因为乙机床生产的200件产品中有120件一级品,所以乙机床生产的产品中一级品的频率为=.(2)根据22列联表中的数据,得K2=10.256,因为10.2566.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.,2.(2022全国甲文,17,12分)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:,(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:K2=,解析(1)由题意可得A公司长途客车准点的概率P1=,B公司长途客车准点的概率P2=.(2)因为K2=3.2052.706,所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.,3.(2020新高考,19,12分)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:g/m3),得下表:,(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的22列联表:,(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=,.,解析(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.(2)根据抽查数据,可得22列联表:,(3)根据(2)的列联表得K2=7.484.由于7.4846.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.,4.(2023届长沙一中月考二,20)某芯片制造企业使用新技术对某款芯片进行试生产.在试产初期,该款芯片生产有四道工序,前三道工序的生产互不影响,第四道是检测评估工序,包括智能自动检测与人工抽检.(1)在试产初期,该款芯片的批次M生产前三道工序的次品率分别为P1=,P2=,P3=.求批次M芯片的次品率PM;第四道工序中智能自动检测为次品的芯片会被自动淘汰,合格的芯片进入流水线并由工人进行抽查检验.已知批次M的芯片智能自动检测显示合格率为98%,求工人在流水线进行人工抽检时,抽检一个芯片恰为合格品的概率.(2)该企业改进生产工艺后生产了批次N的芯片.某手机生产厂商获得批,次M与批次N的芯片,并在某款新型手机上使用.现对使用这款手机的用户回访,对开机速度进行满意度调查.据统计,回访的100名用户中,安装批次M的有40人,其中对开机速度满意的有30人;安装批次N的有60人,其中对开机速度满意的有58人.依据=0.005的独立性检验,能否认为芯片批次与用户对开机速度满意度有关?附:2=,解析(1)批次M芯片的次品率为PM=1-(1-P1)(1-P2)(1-P3)=1-=.设批次M的芯片智能自动检测合格为事件A,人工抽检合格为事件B,由已知得P(A)=,P(AB)=1-PM=1-=,则工人在流水线进行人工抽检时,抽检一个芯片恰为合格品为事件B|A,P(B|A)=.(2)零假设为H0:芯片批次与用户对开机速度满意度无关.由数据可建立22列联表如下:(单位:人),根据列联表得2=10.677.879.因此,依据=0.005的独立性检验,我们推断H0不成立,即能认为芯片批次与用户对开机速度满意度有关.此推断犯错误的概率不大于0.005.,5.(2020课标,18,12分)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):,(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的22列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.,附:K2=,.,解析(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:,(2)一天中到该公园锻炼的平均人次的估计值为(10020+30035+50045)=350.(3)根据所给数据,可得22列联表:,根据列联表得K2=5.820.由于5.8203.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.,6.(2023届河北邯郸摸底,19)暑假期间,某学校建议学生保持晨读的习惯,开学后,该校对高二、高三随机抽取200名学生(该学校学生总数较多),调查日均晨读时间,数据如表:,将学生日均晨读时间在30,60上的学生评价为“晨读合格”.(1)请根据上述表格中的统计数据填写下面22列联表,依据=0.05的独立性检验,能否认为“晨读合格”与年级有关?,(2)将上述调查所得到的频率视为概率来估计全校的情况,现在从该校所有学生中,随机抽取2名学生,记所抽取的2人中晨读合格的人数为随机变量,求的分布列和数学期望.参考公式:2=,其中n=a+b+c+d.临界值表:,解析(1)列联表如下:,2=3.1253.841=x0.05,所以依据=0.05的独立性检验,不能认为“晨读合格”与年级有关.(2)由题意,知学生晨读合格的概率为=,易知B,所以P=,P=,P=,的分布列为,所以E()=0+1+2=.,考法一经验回归方程的求解与应用,1.(多选)(2022重庆秀山高级中学月考,10)已知变量x,y之间的经验回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是(),A.变量x,y之间成负相关关系B.当x=20时,=-3.7C.m=4D.该经验回归直线必过点(9,4)答案ABD,2.(2022山东潍坊摸底,14)已知关于x,y的一组数据:,根据表中数据得到的经验回归方程为=0.28x+0.16,则n-0.28m的值为.答案0.44,3.(2023届广东普宁华美实验学校月考,19)研究显示,越来越多的上班族下班后通过慢跑强身健体,慢跑属于一种有氧运动,可以消耗人体大量热量,坚持慢跑可以促进新陈代谢,增加肺活量以及增强心脏功能,提升人体免疫力,因此深受青年人喜爱.下图统计了小明这100天每天慢跑的时间情况(单位:分钟).,(1)求m的值.(2)小明的同事小强本月前7次慢跑的时间情况如表.由散点图可知,小强的慢跑次数x和慢跑时间y(单位:分钟)之间成线性相关.,求y关于x的经验回归方程=x+,其中,使用分数形式表示;根据中的运算结果预测小强第9次的慢跑时间是否会超过小明这100天慢跑的平均时间.参考公式:在经验回归方程=x+中,=,=-.,解析(1)依题意,得(0.005+0.012+m+0.034+0.015+0.003)10=1,解得m=0.031.(2)依题意,知=4,=24,(xi-)(yi-)=(-3)(-9)+(-2)(-6)+(-1)3+1(-4)+25+312=78,=(-3)2+(-2)2+(-1)2+12+22+32=28,则=,=-=24-4=,故所求经验回归方程为=x+.小明这100天慢跑的平均时间为,50.05+150.12+250.31+350.34+450.15+550.03=30.1,将x=9代入=x+中,得=9+37.9330.1,故可以预测小强第9次的慢跑时间会超过小明这100天慢跑的平均时间.,4.(2023届浙江嘉兴一中期中,20)根据中国海洋生态环境状况公报,从2017年到2021年全国直排海污染源中各年份的氨氮总量y(单位:千吨)与年份的散点图如图.,记年份代码为x(x=1,2,3,4,5),t=,对数据处理后得:,(1)根据散点图判断,模型y=bx+a与模型y=+c哪一个适宜作为y关于x的回归方程?(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立y关于x的回归方程,并预测2022年全国直排海污染源中的氨氮总量(计算结果精确到整数).参考公式:回归方程=x+中斜率和截距的最小二乘估计公式分别为=,=-.,解析(1)根据散点图的趋势,可知模型适宜作为y关于x的回归方程.(2)因为=8,且=-=2,所以y关于t的回归方程为=8t+2,即y关于x的回归方程为=+2,2022年对应的年份代码为x=6,所以3,故预计2022年全国直排海污染源中的氨氮总量为3千吨.,5.(2023届广州仲元中学月考,20)随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升,2020年的考研人数是341万人,2021年的考研人数是377万人.某省统计了该省其中四所大学2022年的毕业生人数及考研人数(单位:千人),得到如下表格:,(1)已知y与x具有较强的线性相关关系,求y关于x的经验回归方程=x+;(2)假设该省对选择考研的大学生每人发放0.5万元的补贴.若该省E大学2022年毕业生人数为8千人,估计该省要发放补贴的总金额;若A大学的毕业生中小浙、小江选择考研的概率分别为p,3p-1,该省对小浙、小江两人的考研补贴总金额的期望不超过0.75万元,求p的取值范围.参考公式:=,=-.,解析(1)由题意得=5.5,=0.35,又xiyi=70.5+60.4+50.3+40.2=8.2,xiyi-4=8.2-45.50.35=0.5,=72+62+52+42=126,-4=126-45.52=5,=0.1,=-=0.35-0.15.5=-0.2,故y关于x的经验回归方程为=0.1x-0.2.(2)将x=8代入=0.1x-0.2,得=0.18-0.2=0.6,估计该省要发放补贴的总金额为0.61 0000.5=300(万元).设小浙、小江两人中选择考研的人数为X,则X的所有可能值为0,1,2.P(X=0)=(1-p)(2-3p)=3p2-5p+2,P(X=1)=(1-p)(3p-1)+p(2-3p)=-6p2+6p-1,P(X=2)=p(3p-1)=3p2-p,E(X)=0(3p2-5p+2)+(-6p2+6p-1)1+(3p2-p)2=4p-1,E(0.5X)=0.5(4p-1)0.75,解得p,又03p-11,p,p,故p的取值范围为.,考法二独立性检验的应用,1.(2023届重庆质量检测,18)某大型企业组织全体员工参加体检,为了解员工的健康状况,企业相关工作人员从中随机抽取了40人的体检报告进行相关指标的分析,按体重“超标”和“不超标”制成22列联表如下:,附:2=,n=a+b+c+d.,(1)完成题中的22列联表,并根据小概率值=0.001的独立性检验,能否认为该企业员工体重是否超标与性别有关?(2)若以样本估计总体,用频率作为相应事件的概率.现从该大型企业的男、女员工中各随机抽取一名员工的体检报告,求抽到的两人中恰有一人体重超标的概率.,解析(1)零假设为H0:体重是否超标与性别无关.依题意可得22列联表如下:,所以2=12.1310.828=x0.001,根据小概率值=0.001的独立性检验,没有充分证据推断H0成立,因此可以认为H0不成立,即认为该企业员工体重是否超标与性别有关.(2)由题意知,从男员工中随机抽取一人,体重超标的概率为,不超标的概率为;从女员工中随机抽取一人,体重超标的概率为,不超标的概率为.所以所求概率P=+=.,2.(2023届河北河间一中开学考,20)某市一隧道由于机动车常在隧道内变道、超速,进而引发交通事故,交管部门在该隧道内安装了监控测速装置,并将该隧道某日所有车辆的通行速度进行统计,如图所示.已知通过该隧道车辆的平均速度为64 kmh-1.,