第八
假设检验
第八章第八章 假设检验假设检验(Hypothesis Testing)1 假设检验假设检验是另一种有重要理论和应用价值的统计推断形式.它的基本任务是,在总体的分布函数完全未知或只知其形式但不知其参数的情况下,为了推断总体的某些性质,首先提出某些关于总体的假设,然后根据样本所提供的信息,对所提假设做出“是”或“否”的结论性判断.假设检验有其独特的统计思想,许多实际问题都可以作为假设检验问题而得以有效地解决.2 8.1 8.1 假设检验的基本概念假设检验的基本概念 在本章中我们将不在记号上严格区别样本和样本值,都记为(nxxx,21),并且将总体记为x.例例 8 8.1.1.1.1 某车间用一台包装机包装葡萄糖.包得的袋装糖重是一个随机变量,它服从正态分布)015.0,(2N.当机器正常时,其均值为0.5 公斤,随机地抽取它所包装的糖 9 袋,称得净重分别为(公斤)0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 问包装机工作是否正常?3 解解 我们按照下列步骤来分析:1)看它工作是否正常,实际上就是看是否可以认为等于0.5,如果可以认为等于0.5,则表明这天的包装机工作正常,否则,如果不可以认为等于 0.5,则表明这天的包装机工作不正常.因此,本例的问题实际上是要我们根据样本所提供的信息来检验下面的假设:0100:HH其中5.00.称0H为原假设(或零假设)原假设(或零假设),1H为备择假设备择假设.如果接受0H,则表明这天的包装机工作正常,如果拒绝0H,则接受1H,此时表明这天的包装机工作不正常.4 现在的问题是:依据什么样的法则来决定拒绝还是依据什么样的法则来决定拒绝还是接受接受 H0?2)我们已经知道,样本均值x是总体数学期望的一个无偏估计,因此当0H为真时,x与5.00应该比较接近.由于抽样的随机性,x与0之间不可避免地会出现一定的差异,但是如果|0 x很大时,我们就有理由怀疑0H的正确性并进而拒绝0H.由于当H0为真时,统计量)1,0(/0Nnxu,5.0(0)9,015.0n5 在很大的程度上我们可以说,确定假设检验的法则的过程就是确定拒绝域的过程确定拒绝域的过程.因此当0H为真时,|u不应很大,如果很大,则拒绝0H.基于这种想法,我们所要做的就是确定一个正数k,当ku|时拒绝0H同时接受1H,而在ku|时接受0H 这就是一个判断的法则这就是一个判断的法则.称nxu/0为检验统计量检验统计量 ku|为拒绝域的形式拒绝域的形式.6 3)3)可能犯的两类错误可能犯的两类错误 现在假设正数k已经确定,则当我们使用上面的法则作判断时,由于检验统计量的随机性,不可避免地会导致如下两类错误:a)第一类错误第一类错误(弃真弃真)原假设0H事实上是真的,但是由于检验统计量的观察值落入拒绝域中,从而导致拒绝0H.这时犯了“弃真”的错误,即将正确的假设摒弃了将正确的假设摒弃了,这一类错这一类错误我们称之为第一类错误误我们称之为第一类错误.记犯第一类错误的概率为,则有 为真拒绝|00HHP00HPH拒绝或 7 在本例中,上式可写成 knxPH/00b)第二类错误第二类错误(取伪取伪)原假设0H事实上是假的,但是由于检验统计量的观察值没有落在拒绝域中,从而导致接受0H.这时犯了“取伪”的错误,即接受了错误的假设接受了错误的假设,这一类错误我这一类错误我们称之为第二类错误们称之为第二类错误.记犯第二类错误的概率为,则有 为假接受|00HHP或|1001为真接受接受HHPHPH8 在本例中,上式可写成 knxPH/01对于给定的一对0H和1H,总可以找出许多的拒绝域,比如在本例中当k取不同的值时就得到不同的拒绝域.当然我们希望寻找这样的拒绝域,使得犯两类错误的概率与都很小.但是,已有研究表明,当样本容量给定后,与中的一个减小时,另一个却随着增大,要使它要使它们同时都很小是不可能的们同时都很小是不可能的.9 基于这种情况,奈曼奈曼和皮尔逊皮尔逊(Neyman-Pearson)提出了如下原则:在控制第一类错误的概率在控制第一类错误的概率的条件下的条件下,使犯第二使犯第二类错误的概率类错误的概率尽量的小尽量的小.这种假设检验问题称为显著性检验显著性检验问题.称犯第一类错误的概率为显著性水平显著性水平.在确定了显著性水平后,接下来的任务就是确定拒绝域.Neyman-Pearson原则的出发点原则的出发点:我们提出原假设时是经过细致调查和考虑的,它必须是一个要加以保护的假设,这样当我们要拒绝它时必须非常慎重,一般情况下不宜轻易拒绝.10 4)由于在H0为真的条件下)1,0(/0Nnxu所以由 knxPH/00可得 2.ku因而,若2|uu,则拒绝0H,而若2|uu,则接受0H 称/2|uu为拒绝域拒绝域.11 在本例中,如果取05.0,则有0.0251.96ku,又已知9,015.0n,再由样本算得511.0 x,有 00.0250.511 0.5|2.21.96/0.015/9xuun于是拒绝0H,即认为这天包装机工作不正常.从上述对例1的分析和讨论中,可以看出假设检验的过程中包含有下面两个重要的思想:12 1)反证法思想反证法思想 为了确定是否要拒绝原假设0H,首先是假定0H为真,看由此“应该”会出现什么结果,如果“应该”会出现的结果没有出现,而是出现了一个明显的“有违常理”的现象,则可以有很大的把握认为“0H为真”的假定是错误的,并进而拒绝0H.如果出现了“应该”会出现的结果,则认为“0H为真”的假定是正确的,从而接受原假设0H.因此,当我们拒绝时用的是反证法的思想拒绝时用的是反证法的思想,但是上面的论证却仍然存在两个问题:13 第一个问题是,“应该”出现的结果并不是“肯定”“应该”出现的结果并不是“肯定”出现的结果出现的结果,也就是“应该”出现的结果以外的其他结也就是“应该”出现的结果以外的其他结果还是有可能出现的果还是有可能出现的,例如上例中,0H为真时,“应该”出 现 的 结 果 是 事 件/2|uu,但 是 其 对 立 事 件/2|uu,虽然在0H为真时被认为“有违常规”,却仍有可能以一定的概率(即显著性水平)出现,因此我们所采用的反证法并不完全是形式逻辑上的反证法;第二个问题是,即使是出现了在即使是出现了在0H为真时“肯定”为真时“肯定”会出现的结果会出现的结果,在逻辑上也不能据此推断在逻辑上也不能据此推断0H就是真就是真的的。这个道理是非常明显的,比如说,浙江人肯定是中国人,但是一个已经被确认是中国人的先生,你能说他就是浙江人吗?14 2)2)小概率原理小概率原理 上面所提到的“有违常规”的现象,并不是形式逻辑上的绝对不可能现象,而是基于小概率原理或统计推断原理基础上的不可能.小概率原理认为:概率很小的事件在一次试验中实际上是不会发生的概率很小的事件在一次试验中实际上是不会发生的.这里的“不会”不是逻辑意义上的不会,而是统计意义上的不会,并且事实上我们每一个人都是这个命题的忠实实践者。一个人在一生的很多场合都有可能会出现不幸的意外。比如,过马路可能会被车撞,在露天有可能被雷打,乘飞机有可能会出现空难。但是我们依然会出现在这些场合,因为这时我们会想:哪有这么巧的,这么倒哪有这么巧的,这么倒霉的事情怎么会给我碰到呢?霉的事情怎么会给我碰到呢?于是我们又一次开着汽车上高速公路了 15 在例1的检验过程中所采用的推断法则是符合小概率原理或统计推断原理的.因为通常都取得较小,一般取05.0,01.0等.若0H为真,即当0时,事件/2|uu是一个小概率事件,根据统计推断原理,就可以认为如果0H为真,则由一次试验得到的观察值u,满足不等式/2|uu几乎是不会发生的.然而,现在在一次观察中该事件“居然”出现了,故我们有理由怀疑原假设0H的正确性,因而拒绝0H.另一方面,我们也可以这样来理解,由于显著性水平即犯第一类错误的概率是个较小的数,因此当我们根据一次试验的结果做出拒绝0H的判断时,我们可以“信心十足”地认为这是一个正确的判断.16 但是,如果出现了事件/2|uu,则此时要拒绝0H就显得有点“信心不足”了,既然这样,那就只好接受0H了.因此,当作出接受0H的判断时,所依据的既不是逻辑推理,也不是统计推断原理,而只是因为不能“信心十足”地拒绝0H而不得不做出接受0H的“无奈”抉择.至于当我们接受0H时犯错误(即第二类错误)概率的控制问题,则是在我们控制显著性水平时所必须忽略的问题,根据我们前面的讨论知,这是一个不得不付出的代价.17 下面我们结合例 1 来对“显著性水平显著性水平”中“显著显著”一词再作些直观的解释.我们曾经提到,由于抽样的随机性,样本均值x与总体假设的期望0之间难免会有一些差异,但是如果差异“显著”,则我们有理由认为总体的期望不是0.但是什么样的差异叫“显著”呢?这就需要一个准则.事实上,在本例中,我们看到这个准则是根据犯第一类错误的概率来定的.当事件/2|uu发生时,我们认为样本均值x与总体假设的期望0之间差异“显著”,而当事件/2|uu发生时,认为差异不“显著”.这就是为什么称犯第一类错误的这就是为什么称犯第一类错误的概率为“显著性水平”的直观解释概率为“显著性水平”的直观解释.18 在显著性检验问题中,若没有非常充足的理由若没有非常充足的理由,原假设是不能轻易拒绝的原假设是不能轻易拒绝的,因此原假设是受到保护的假设.如何根据问题的需要来合理地提出原假设和备择假设是一个关键的问题.一般地我们总是将被拒绝时导致的后果更严重的假设作为原假设.案例研究案例研究 美国军队曾经考虑是否将某种地对空导弹的雷达制导系统换为红外线制导系统,因为据称后者能提高命中率.已知原来雷达制导时导弹的命中率为 0.5,现在美国人用装有红外线制导系统的导弹试射了 18 枚,结果有 12 枚击中.问能否认为红外线制导系统有没有提高命中率?19 假如装备有红外线制导系统的导弹的命中率为p,则此时需检验的问题为:01:0.5,:0.5HpHp从试验的结果看好像确实是提高了命中率(达到了三分之二),但问题是我们能否据此就可以“信心十足”的更换制导系统了呢?设X为该试验中击中目标的导弹数,则我们需确定一个数k,当kX 时拒绝0H同时接受1H.如果取显著性水平为0.01,则由 01.05.0|pkXP知此时k至少应为15.20 同理,如果取显著性水平为 0.05,则此时k至少应为 14,如果我们马虎一点,将显著性水平取得更大一些,比如取为 0.1,则此时k至少应为 13.因此,仅仅根据击中的次数超过 11 是不能拒绝0H的.为了谨慎起见,我们宁愿相信试验的结果是随机波动的结果而不是由于导弹的性能有显著的提高.虽然接受0H有可能会犯错误,但问题并不是很严重,因为不更换制导系统并不比原来更差,命中率仍可维持在0.5.否则一旦作出拒绝的判断,那么就将消耗巨大的人力物力来更换该系统,其结果却很有可能(概率至少为 0.1)并没有改善导弹性能.21 综上所述综上所述,处理假设检验问题的步骤如下:处理假设检验问题的步骤如下:1、根据问题的实际情况根据问题的实际情况,建立原假设建立原假设0H及备择及备择假设假设1H;2、选定检验统计量并分析拒绝域的形式;、选定检验统计量并分析拒绝域的形式;3、给定显著性水平给定显著性水平,并由此确定出拒绝域并由此确定出拒绝域C;4、取样取样,根据样本观察值作出判断是否拒绝根据样本观察值作出判断是否拒绝.22 8.2 8.2 单个正态总体参数的假设检验单个正态总体参数的假设检验 设),(21nxxx是正态总体),(2Nx的样本。niixnx11niixxns122)(11一、关于一、关于的假设检验的假设检验 关于未知参数可以提出如下几种常见的假设检验问题:1)0100:,:HH 称为双边检验 2)0100:,:HH称为右边检验 3)0100:,:HH称为左边检验 23 1)已知(u检验)2 对于双边检验的情形,我们在上节的例1中已经讨论过.此时,我们取检验统计量为 nxu/0拒绝