分享
知识讲解 独立性检验的基本思想及其初步应用(文、理).doc
下载文档

ID:3531683

大小:236.60KB

页数:10页

格式:DOC

时间:2024-05-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
知识讲解 独立性检验的基本思想及其初步应用文、理 知识 讲解 独立性 检验 基本 思想 及其 初步 应用
学海在线资源中心 独立性检验的基本思想及其初步应用 编稿:赵雷 审稿:李霞 【学习目标】 1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用 2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 【要点梳理】 要点一、分类变量 有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。 要点诠释: (1)对分类变量的理解。 这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。 (2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。 要点二、2×2列联表 1. 列联表 用表格列出的分类变量的频数表,叫做列联表。 2. 2×2列联表 对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示: 事件B 事件 合计 事件A a b a+b 事件 c d c+d 合计 a+c b +d a+b+c+d 这样的表格称为2×2列联表。 要点三:卡方统计量公式 为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示 Y1 Y2 合计 X1 a b a+b X2 c d c+d 合计 a+c b+d n=a+b+c+d 统计中有一个有用的(读做“卡方”)统计量,它的表达式是: (为样本容量)。 要点四、独立性检验 1. 独立性检验 通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2. 变量独立性的判断 通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断: ①如果≤3.841时,认为事件A与B是无关的。 ②如果>3.841时,有95%的把握说事件A与事件B有关; ③如果>6.635时,有99%的把握说事件A与事件B有关; 要点诠释: (1)独立性检验一般是指通过计算统计量的大小对两个事件是否有关进行判断; (2)独立性检验的基本思想类似于反证法。即在H0:事件A与B无关的统计假设下,利用统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件A与B无关”,从而认为事件A与B有关。独立性检验为假设检验的特例。 (3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。 3.独立性检验的基本步骤及简单应用 独立性检验的步骤: 要推断“A与B是否有关”,可按下面步骤进行: (1)提出统计假设H0:事件A与B无关(相互独立); (2)抽取样本(样本容量不要太小,每个数据都要大于5); (3)列出2×2列联表; (4)根据2×2列联表,利用公式:,计算出的值; (5)统计推断:当>3.841时,有95%的把握说事件A与B有关; 当>6.635时,有99%的把握说事件A与B有关; 当>10.828时,有99.9%的把握说事件A与B有关; 当≤3.841时,认为事件A与B是无关的. 要点诠释: ① 使用统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5. ② 一定要弄清的表达式中各个量的含义. ③ 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量应该很小,如果由观测数据计算得到的的观测值很大,则在一定程度上说明假设不合理.根据随机变量的含义,由实际计算的>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当≤3.841时,认为两个分类变量是无关的. 【典型例题】 类型一、利用2×2列联表计算卡方 例1.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,得到如下列联表: 喜欢数学 不喜欢数学 合计 男 13 10 23 女 7 20 27 合计 20 30 50 根据表中的数据,计算 【思路点拨】利用公式计算 【解析】得到 【思路点拨】在利用列联表计算统计量作独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点。 举一反三: 【变式1】研究两个事件A,B之间的关系时,根据数据信息列出如下的2×2列联表: B 合计 A n11 n12 n1+ n21 n22 n2+ 合计 n+1 n+2 n 则以下计算公式正确的是( ) A. B. C. D. 【答案】A 【变式2】由列联表 合计 43 162 205 13 121 134 合计 56 283 339 则随机变量 。(精确到0.001) 【答案】由公式计算得:7.469 类型二、独立性检验 例2. 近年来,随着我国经济的飞速发展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也越来越多.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:检查为阳性则为患皮肤炎),在生产季节开始时,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数的结果如下: 阳性例数 阴性例数 合计 新 5 70 75 旧 10 18 28 合计 15 88 103 问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由. 【思路点拨】 这是一个列联表的独立性检验问题,根据列联表的数据求解判断。 【解析】 提出假设H0:新防护服对预防工人患职业性皮肤炎无效. 将表中数据代入,得,查表可知:P(≥10.828)≈0.001,而13.826>10.828,故有99.9%的把握认为新防护服对预防这种职业性皮肤炎有效. 【总结升华】 在掌握了独立性检验的基本思想后我们一般通过计算的值,然后比较的值与临界值的大小来精确地给出“两个分类变量”的相关程度. 举一反三: 【变式1】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。根据上面的数据,你能得出什么结论? 【答案】由已知数据得到下表 合格品 不合格品 合计 设备改造后 65 30 95 设备改造前 36 49 85 合计 101 79 180 根据公式得≈12.38。 由于12.38>6.635,可以得出产品是否合格与设备改造是有关的。 【变式2】考察黄烟经过培养液处理与否跟发生青花病的关系。调查了457株黄烟,得到下表中数据,请根据数据作统计分析。 培养液处理 未处理 合计 青花病 25 210 235 无青花病 80 142 222 合计 105 352 457 分析:计算的值与临界值的大小关系。 【答案】根据公式=≈41.61。 由于41.61>6.635,说明经过培养液处理的黄烟跟发生青花病是有关的。 【变式3】为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示: 男 女 正常 442 514 色盲 38 6 根据上述数据试问色盲与性别是否是相互独立的? 【答案】由已知条件可得下表 男 女 合计 正常 442 514 956 色盲 38 6 44 合计 480 520 1000 依据公式得==27.139。 由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。 【高清课堂:独立性检验的基本思想及其初步应用406875 例题 1】 例3. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示: 又发作过心脏病 未发作过心脏病 合计 心脏搭桥手术 39 157 196 血管清障手术 29 167 196 合计 68 324 392 试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别. 【思路点拨】先提出假设,然后根据的大小做出准确估计判断。 【解析】 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系. 由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392, 所以 。 因为≈1.779<<2.706,所以不能作出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论.即这两种手术对病人又发作过心脏病的影响没有差别. 【总结升华】此类问题的一般解法是利用,求出的值,再利用与临界值的大小关系来判断假设是否成立.在解题时应注意准确代数与计算. 举一反三: 【变式1】对男女大学生在购买食品时是否看营养说明进行了调查,得到的数据如下表所示: 看营养说明 不看营养说明 合计 男大学生 23 32 55 女大学生 9 25 34 合 计 32 57 89 利用2×2列联表的独立性检验估计看营养说明与性别的关系中准确的是( ) A.二者一定无关 B.有95%的把握说二者有关 C.有99%的把握说二者有关 D.没有理由说二者有关 【答案】D; 由公式得:, 因为2.149<3.841,所以我们没有理由说看营养说明与性别有关。故选D。 【变式2】在大连—烟台的某次航运中,出现了恶劣气候。随机调查男、女乘客在船上晕船的情况如下表所示: 晕船 不晕船 合计 男人 32 51 83 女人 8 24 32 合计 40 75 115 据此资料,你能否认为在恶劣气候中航行时,男人比女人更容易晕船? 【答案】由卡方公式得:。 因为1.870<3.841,所以我们没有理由说晕船跟性别有关。 因此不能认为在恶劣气候中航行时,男人比女人更容易晕船。 注意:解决本题主要运用卡方公式来判断,尽管这次航行中男人晕船比例比女人晕船比例高,但我们不能就此认为在恶劣气候中航行时男人比女人更容易晕船。 类型三、独立性检验的应用 例4.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表: 班级与成绩列联表    优秀 不优秀 总计 甲班 10 35 45 乙班 7 38 45 总计 17 73 90   画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。  【解析】列联表的条形图如图所示:   由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为K2≈0.653>0.455。   由下表中数据 P(K2≥k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828   得:P(K2≥0.455)≈0.50,   从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。  【总结升华】   (1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果可能会出错。   (2)计算得到K2的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”。这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立。在独立性检验中,在假设“成绩优秀与班级没有关系”的情况下,计算得到的K2的值比较小,且P(K2≥0.653)≈0.42,说明事件(K2≥0.653)不是一个小概率事件,这个事件的发生不足以说明“成绩优秀与班级没有关系”,即没有理由说明“成绩优秀与班级有关系”。这里没有推出小概率事件发生类似于反证法中没有推出矛盾。 举一反三: 【变式1】 在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关.你所得到的结论在什么范围内有效? 【答案】 根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计 男 38 442 480 女 6 514 520 合计 44 956 1000 作出相应的二维条形图,如图所示.由二维条形图可知在男人中患色盲的比例要比在女人中患色盲的比例大,其差值比较大,因而我们可以认为性别与患色盲是有关的; 根据列联表中所给的数据可知: a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1000, 代入公式 得,因为≈27.1>10.828,所以我们有99.9%的把握认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效. 【变式2】 某年高考后,某市教育主管部门对该市一重点中学高考上线情况进行统计,随机抽查244名学生,得到如下表格: 语文 数学 英语 综合科目 上线 不上线 上线 不上线 上线 不上线 上线 不上线 总分上线201人 174 27 178 23 176 25 175 26 总分不上线43人 30 13 23 20 24 19 26 17 总计 204 40 201 43 200 44 201 43 试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大? 【答案】对于上述四个科目,分别构造四个随机变量,,,, 由表中数据可以得到: 语文:, 数学:, 英语:, 综合科目:. 所以,有99%的把握认为语文上线与总分上线有关系,有99.9%的把握认为数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大. 【变式3】有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表. 优秀 非优秀 合计 甲班 10 乙班 30 合计 105 已知在全部105人中随机抽取1人为优秀的概率为. (1)请完成上面的列联表; (2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”; (3)若按下面的方法从甲班优秀的学生抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号,试求抽到6或10号的概率. 【答案】(1) 优秀 非优秀 合计 甲班 10 45 55 乙班 20 30 50 合计 30 75 105 (2)根据列联表中的数据,得到 , 因此有95%的把握认为“成绩与班级有关系”. (3)设“抽到6或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y). 所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个. 事件A包含的基本事件有:(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共8个, ∴P(A)==.

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开