gb6380
88
中华人民共和国国家标准 数据的统计处理和解释工 型极值分布样本异常值的判断和处理UDC 5 1 9.2 5GB 6 3 8 0-8 6S t a t i s t i c a l i n t e r p re t a t i o n o f d a t a一De t e c t i o n a n d h a n d l i n g o f o u t l y i n go b s e r v a t i o n s i n t h e s a m p l e o f t y p e I e x t reme v a l u e d i s t r i b u t i o n1 引言 1.1 本标准规定了判断和处理I 型极值分布总体的随机样本中所出现的异常值的一 般原则和实施方法。工 型极值分布也称贡贝尔(G u m b e 1)分 布,其分布函数为尸(,x)二 e x p(一 e,)概率密度函数为f(x)一 会 e x p 一、一“一“,其中:4 二(x 一 的/b,b o,一-x.十 况。当a 二o,b 二I 时的概率密度函数曲线如下 I f(T)0.4 0一 一一一、一 2一1 0 1 2 3 1 5 ti图 I I 型极值分布在水文、气象、地震以及可靠性等 很多领 域内有着广泛的应用。1.2 异常值(或异常观测值)是指样本中 的个别值,其数值明显偏离它(或它们)所属样本的其余观测值。异常值可能是总体固有的随机变异 性的极端表现。这种异常值和样本中其余观侧值属于同 一 总体异常值也可能是由于试验条件和试验方法的偶然偏离所产生的后果国家标准局1 9 8 6 0 5-1 3 发布,或产生于观测、计算、记录 1 9 8 7一 0 5一 0 1 实施GB 63 8 0 一 L中的失误。这种异常值和样木中其余观测值不属于同总体。一:本标准使用的其它统计 学名词,见G B 3 3 0 8-8 2 统计学名词和符号。应用条件:当有充分理论根据或经验确信所检验样本中诸观测值,除了 个别异常值外,其余大部分值称为样本主休来自同 一 个 型极值分布总体。当 样木卜 休来自同 一 个工 型极小位分布时,经过变换Z-X后所得的样本主体可以认为 是工 型极了 4 分布。丁 型极小值分布的分布函数为F(x)=1一e x p(一e v)其概率密度函数为/(x)二 借 e x p(、一)其中:刀 二当。0(x一a)bb,b,o,一 二 _ x、1 时的概率密度曲线如r i,(二)泣 宜 二 一钊朋2a10(1认仇认一4 3一2一1 02X图 22 判断异常值的 统计学原则 2.1 执行本标准时,应规定在样本中检出异常值的个数的上限(占 样本观测值个数的较小比例),当超过了这个L 限,对此样本的代表性应作慎重的研究和处理。22 判断单个异常值的检验规则 根据实际情(R,选定适宜的异常值检验规则(见本标准4);指定一个为检出异常值的统计检验的显著性水平a,简称检出水平。根据a和观测值的个数n 确定统计童的临界值。将各观测值代人检验规则中 给出的统计最,所得值若超过临界值,则判断事先确定待检验的最大观测值为异常值;否则就判断没有异常值。检出水平宜取为1%或5%。2.3 判断多个异常族的检验规则 在允许检出异常值个数可大于 1 的情况下,本标准规定的方法是重复使用同一种判断单个异常俏约检验规则:即用抬定的检出水平 和符合2.2 规定的检验规则检验全体观测值,若没有检出异常值,则整个检验停正;若检出了 一个异常值,就再用相同的检出水平和相同的规则,对除去F-出 的异常Si tGB8 3 8 0-8 6后余下的观测值继续检验、,a到没有检出异常值,或检出的异常值个数超过 卜 限为止。3 处理异常值的一般规则 3.1 对用统计方法检出的异常值,应尽可能详找产生异常值的技术上的、物理 上 的原因,作为处理异常值的依据。3.2 处理异常值的方式有:异常值保留在样本中,并参加其后的数据分析;允许剔除异常值,即把异常值从样木中剔除;允许剔除异常值,并追加适宜的观测值计人样本;在找到实际原因时修正异常值。3.3 标准使用者应根据实际问题的性质,权衡详找产生异常值原因的花费,:!确判断异 常值的得益及错误剔除正常观侧值的风险,确定实施下述三个规则中 的一 个:a对任何异常值,若无充分说明其异常的技术土的、物理上的原因,则不得剔除或进行修正。b.异常值中除有充分说明其异常的技术七 的、物理上的原因者可以剔除或进行修正外,如果在统计上表现为高度异常的,也允许剔除或进行修正。统计上表现为高度异常的意义是:指定一 个为检验异常值是否高度异常的统计检验的显 著性水中a*,简称剔 除水平,其值小于检出水平a,实施时,按2.2 规定进行检验后,再按2.2 规定以剔 除水平 a*代替检出水平 a,对检出的异常值进行检验,若在剔除水乎 a*-F 此检验是显著的,则此异常值表现为高度异常。在重复使用同一检验规则的情况下,每次检出了 异常值后都要再检验它在剔除水平下是否高度异常,若某次检验中检出的异常值为高度异常,则这个异常值及在它前面检出的异常值都可 被剔除或进行修正。除特殊悄况外,剔除水t=一 般宜取为1%,而不宜取大于5%的值口 在选用剔除水平的情况下,检出水平 可取5 或再稍大些。c.检出的异常值都可被剔除或进行修正。3.4 被检出 的异常值及剔 除,修正的理由应予 以记录,以备查询。4 判断和处理异常值的规则 4.1 本 标准规定:当 样本大 小5 n 手 3 0 时,使用 狄克 逊(D ix o n)型检 验法;当 样本大 小3 0 n,:5 0 时,使用欧文(I r es i n)型检验法。4.2 狄克 逊型检验法样本大小5 n 3 0 情形 4.2.1 检脸步骤 a.从样本观测了 邝“挑选出 最小观测值X,最大观测值X c ,次大观测值X。,以及第大观测值X(。:,计算统计量(。)一X(。一 1 佃 一X、5成n 喊3 0X-X犷m 二X。)一X。一:r Z 01了|ee、一 DX ,一X,)9 n 0.6 8 13 2 9.7 3 为异常值。又 取剔 除水平 a.=1“、,查附表1 得从彭6)二。.7 9 6,山 D、;(6),(6),故判断 X)二 3 2 9.7 3 为高度异常。经复核查实,此数据系误记,实际值为3 1 9.7%例2(重复使用狄克 逊型检验法以判断多个异常值的示例)从某种绝缘材料I I I 随机地取出1 1 个样品,在 t 定条件F R行寿命试验,其失效时间分别为(单位:h)4.0 9,1 7.3 1,6 0.7 8,6 2.1 6,6 4,1 5,7 0.6 7,7 1.8 5,7 5.5 0,7 9.3 5,8 0.0 0,8 8.川。现在检验4.0 9,1 7.3 1 是否异常。理论f 表明这种 绝缘材料的寿命T服从I 型极小值分布,因此经变 换X=一 T后所得的样本可G l认为 是1 型 极 侦 分 布 的,即对 来自 型 极 伯分 布 的样木 X(,=一 8 8.0 1,X(:,8 0.0 0,,X,一 6 2,1 6,从,二一 6 0.7 8,X(m。二 一 1 7.3 1,X、二 一 4.0 9,检 验 最大 观 测 仇 X(I、及 次大观测值刃 。)是否异常。这里n 二1 1,计算统计鼠D-r mX(1 一X。)X(。一X 4.0 9)一(一 6 0.7 8)9.0 9)一(一8 8.0 10 1)0 6 7 5 取检出水平。=5%,万1,二 一 4.0 9 为异 常 值。L 十 ;杳附表1 得D的临界值D-.,(1 1)再对余下的1 0 个数据继续检验,=0.6 5 6,由子I I.D,(1 1),仍取检出水平a=5。,对n 二1 0,故判断计0.4 f tD二r 2,x(。一X(,)X.(-1 7.3 1)-(-6 2.1 6)二()6 3 4(一1 7.3 1)一(一8 8.0 1)查 附表1 得D 的临界旋Do,:(1 0)二 0.6 7 6,由于/)D,,。(1 0),故不能认为X、为异常值。1 7.3 1:.,欧文3 !i 检验法样本人小3 0。气5 0 情形 检r步骤a.从样本观测仇!挑选出最小观测值尤(1),最大 观测值X 。),以及次大观测俏X日算统计 1X。一X,S,嘶期S2,n-3 (-V,、X,)X,2-1 _ X,Gs 6 3 8 0一 8 I 这里求和是对 除去 最小观测值 x 以及最大观测俏X 。)后的所有样本观测值进行的。b.确定检出水平a,由附表2 查出对应于n,a的临界值Ii。(n)。.当I 一 I 卜。(OH 寸,k i 断最大观测值 X )为异常值,否则就不能判为异常值。d.在给出 剔除水平 a*的情况下,由附表2 查出对应于 n,。*的临界值I。(n)。当1,-,I 卜。(n)时,判断 尤 n 为高度异常,否则就判 断为没有高度异常的异常值 .3.2 示例 例3(使用欧文 型检lk法的示例)某地某河流年最大经流 靛的逐年观M il 数据如 F:单位:k m l/i s)1.6 9,1.2 2,0.7 5,1.2 6,1.7 3,1.7 4,3.0 9,1.5 7,1.9 7,2.2 3,2.0 3,1.5 8,0.9 0,2.4 0,1.6.5,1.9 6,2.3 0,1.7 9,1.4 8,2.2 2,1.9 1,3.0 6,2.0 8,1.0 6,4.3 1,1.5 6,1.8 8,2.1 0,2.0 2,1.7 4,1.1 8,2.1 2,1.3 8,0.9 0,1.4 5,1.7 8,1.9 7,2.2 7,2.3 4,2.4 4 0现在检 验最大 值X(4 u,二 4.3 1 是否异常。可以认为年最大经流量的逐年观测数据近似地服从I 型极值分布。对h 述观测数据稍加枯理可以看出,其最小值X:)=0.7 5,最大值X 和 二 4.3 1 以及次大值 X,二 3.0 9,对除去尤 1 和X后的所有数据,先计 算 S I,=0.5 0 2,再算得统计量I 的值I二 I nX1 0 1-X 1 3 1 S 4.3 1一3.0 9一 二 2 4 3 0.5 0 2取检出水平a=5%,查附表2 得I 的临界值I a.,(4 0)=2.8 4,由F-I=_ I n.,(4 0),故不能认为X(a 0)二 4.3 1 是异 常值。GB 8 3 8 0-8 6附录A (补充件)衷 A1 狄克逊型检验法的临界值表统 干量0.9 00.9 50.9 9呵0.606何何()=卜。=凡n 一X -X 。一 zX 切)一X,:.:;:0.5 5 80.5 5 20.5 4 60.5 4 10.5 3 60.5 310.5 2 70.5 2 30.5 1 90.5 1 50.5 1 10.6 8 40.6 7 50.6 6 70.6 6 00.6 540.6 4 80.6 4 20.6 3 60.6 3 10.6 2 60.6 2 20.6 1 80.6 1 40.6 1 00.6 0 60.6llD6000581,加1112招讨伟1617比19202122器时2526罗路293025】GB 6 8 8 0-8 6表 A2 欧文型检验法的临界值表I0.9 50.9 9洲-翻珊川珊撒冻洲2.23:一2.2 02.1 9.:一3.0 53.0 33.D I2.9 92.9 72.9 52.9 32.9 12.9 02.吕 92 8 82.8 72.8 石2.8 52.8 42.8 32.8 22.8 12.8 02.7 92.7 84 了 44 714.6 81.6 54.6 2牛.6()土.5 815 6才.5 41.5 24 5 口4.4 8J.4 61.4 44.4 24.1 04.3 91.3 81.372162163031况驹洲3536舒朋394041妮43封朽一:2.1 3:.:注本表是在DPS 8 一4 5 计算机上统计模拟M二 1 0 0 0 0 次的结果附加说明:本标准由全国统计方法应用标准化技