中华人民共和国国家标准数据的统计处理和解释工型极值分布样本异常值的判断和处理UDC519.25GB6380-86Statisticalinterpretationofdata一DetectionandhandlingofoutlyingobservationsinthesampleoftypeIextremevaluedistribution1引言1.1本标准规定了判断和处理I型极值分布总体的随机样本中所出现的异常值的一般原则和实施方法。工型极值分布也称贡贝尔(Gumbe1)分布,其分布函数为尸(,x)二exp(一e,)概率密度函数为f(x)一会exp‘一、一“一“,其中:4二(x一的/b,b>o,一--x.〔十况。当a二o,b二I时的概率密度函数曲线如下If(T)0.40一———一一一、一‘2一1012315ti图II型极值分布在水文、气象、地震以及可靠性等很多领域内有着广泛的应用。1.2异常值(或异常观测值)是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余观测值。异常值可能是总体固有的随机变异性的极端表现。这种异常值和样本中其余观侧值属于同一总体异常值也可能是由于试验条件和试验方法的偶然偏离所产生的后果国家标准局1986~05-13发布,或产生于观测、计算、记录1987一05一01实施GB6380一L中的失误。这种异常值和样木中其余观测值不属于同总体。}一:本标准使用的其它统计学名词,见GB3308-82《统计学名词和符号》。应用条件:当有充分理论根据或经验确信所检验样本中诸观测值,除了个别异常值外,其余大部分值—称为样本主休—来自同一个[型极值分布总体。当样木卜休来自同一个工型极小位分布时,经过变换Z--X后所得的样本主体可以认为是工型极了4分布。丁型极小值分布的分布函数为F(x)=1一exp(一ev)其概率密度函数为/(x)二借exp(、一)其中:刀二当。0(x一a)bb,b,o,一二‘_x、、1时的概率密度曲线如ri,(二)泣宜二一钊朋2a10(1认仇认一43一2一102X图22判断异常值的统计学原则2.1执行本标准时,应规定在样本中检出异常值的个数的上限(占样本观测值个数的较小比例),当超过了这个L限,对此样本的代表性应作慎重的研究和处理。22判断单个异常值的检验规则根据实际情(R,选定适宜的异常值检验规则(见本标准4);指定一个为检出异常值的统计检验的显著性水平a,简称检出水平。根据a和观测值的个数n确定统计童的临界值。将各观测值代人检验规则中给出的统计最,所得值若超过临界值,则判断事先确定待检验的最大观测值为异常值;否则就判断没有异常值。检出水平宜取为1%或5%。2.3判断多个异常族的检验规则在允许检出异常值个数可大于1的情况下,本标准规定的方法是重复使用同一种判...