概率论与数理统计
华东师范大学
概率论
数理统计
课件
第五
茆诗松版
华东师范大学统计系茆诗松、程依明、濮晓龙 研制?p 的大小如何;p 大概落在什么范围内;能否认为 p 满足设定要求(如 p 0.05)。5.1 总体与个体总体与个体总体的三层含义:例5.1.1 考察某厂的产品质量,以0记合格品,以1记不合格品,则 总体=该厂生产的全部合格品与不合格品 =由0或1组成的一堆数若以 p 表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:X 0 1P 1 p pX01p0.9830.017X01p0.9150.085例5.1.2 在二十世纪七十年代后期,美国消费 者购买日产SONY彩电的热情高于购买美产 SONY彩电,原因何在?1979年4月17日日本朝日新闻刊登调查报 告指出N(m,(5/3)2),日产SONY彩电的彩色浓 度服从正态分布,而美产SONY彩电的彩色浓 度服从(m5,m+5)上的均匀分布。原因在于总体的差异上!图5.1.1 SONY彩电彩色浓度分布图等级 I II III IV美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3样本具有两重性 一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1,X2,Xn 表示;另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1,x2,xn 表示是恰当的。简单起见,无论是样本还是其观测值,样本一般均用 x1,x2,xn 表示,应能从上下文中加以区别。表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。寿命范围 元件数 寿命范围 元件数 寿命范围 元件数 (0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13 独立性:样本中每一样品的取值不影响其 它样品的取值-x1,x2,xn 相互独立。要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:随机性:总体中每一个个体都有同等机会 被选入样本-xi 与总体X有相同的分布。11(,.,)().nniiF xxF x例5.1.5 设有一批产品共N个,需要进行抽样检 验以了解其不合格品率p。现从中采取不放回 抽样抽出2个产品,这时,第二次抽到不合格 品的概率依赖于第一次抽到的是否是不合格 品,如果第一次抽到不合格品,则P(x2=1|x1=1)=(Np1)/(N1)P(x2=1|x1=0)=(Np)(N1)5.2.1 经验分布函数5.2 样本数据的整理与显示设 x1,x2,xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1),x(2),x(n),则称 x(1),x(2),x(n)为有序样本,用有序样本定义如下函数(1)()(1)()0,()/,1,2,.,11,kknnxxFxk nxx xknxx 例5.2.1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克)351 347 355 344 351x(1)=344,x(2)=347,x(3)=351,x(4)=354,x(5)=355这是一个容量为5的样本,经排序可得有序样本:其经验分布函数为x1,x2,xn表5.2.1 例5.2.2 的频数频率分布表 组序 分组区间 组中值 频数 频率 累计频率(%)1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 3 (167,177 172 5 0.25 85 4 (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合计 20 1一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:二、茎叶图数值 分开 茎 和 叶 112 11|2 11 和 264677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图,见下页。图5.2.3 测试成绩的茎叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 在要比较两组样本时,可画出它们的背靠背的茎叶图。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。5.3 统计量及其分布当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。定义5.3.1 设 x1,x2,xn 为取自某总体的样 本,若样本函数T=T(x1,x2,xn)中不含有任 何未知参数。则称T为统计量。统计量的分布 称为抽样分布。按照这一定义:若 x1,x2,xn 为样本,则 以及经验分布函数都是统计量。而当,2 未知时,x1,x1/等均不是统计量。尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。niiniixx121,定义5.3.2 设 x1,x2,xn为取自某总体的样本,其算术平均值称为样本均值,一般用 表示,即思考:在分组样本场合,样本均值如何计算?二者结果相同吗?xx=(x1+xn)/n定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,样本均值的基本性质:定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即 最小,其中c为任意给定常数。1()0.niixx2()ixx样本均值的抽样分布:定理5.3.3 设x1,x2,xn 是来自某个总体的样本,x为样本均值。(1)若总体分布为N(,2),则xx的精确分布为N(,2/n);(2)若总体分布未知或不是正态分布,但 E(x)=,Var(x)=2,则n 较大时 的渐近分 布为N(,2/n),常记为 。xAN(,2/n)这里渐近分布是指n 较大时的近似分布.称为样本标差。s*=s*2定义5.3.3称为样本方差,其算术平方根在n 不大时,常用 作为样本方差,其算术平方根也称为样本标准差。221*1()niisxxn2211()1niisxxn在这个定义中,(xi x)2n1称为偏差平方和的自由度。其含义是:x在 确定后,n 个偏差x1x,x2x,xnx能自由取值,因为只有n1个数据可以自由变动,而第n个则不 (xi x)=0.称为偏差平方和,中样本偏差平方和有三个不同的表达式:(xix)2=xi2 (xi)2/n=xi2 nx它们都可用来计算样本方差。思考:分组样本如何计算样本方差?样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩,即 E(x)=,Var(x)=2 x1,x2,xn 为从该总体得到的样本,x和s2 分别是样本均值和样本方差,则E(x)=,Var(x)=2/n,E(s2)=2 样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。定义5.3.4 ak=(xik)/n 称为样本 k 阶原点矩,特别,样本一阶原点矩就是样本均值。称为样本k阶中心矩矩。特别,样本二阶中心矩就是样本方差。bk=(xi x)k/nx样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。定义:1=b3/b23/2 称为样本偏度,2=b4/b22 称为样本峰度。x另一类常见的统计量是次序统计量。一、定义5.3.7 设 x1,x2,xn 是取自总体X的样本,x(i)称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=minx1,x2,xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2,xn为 该样本的最大次序统计量。xp我们知道,在一个样本中,x1,x2,xn 是独立同分布的,而次序统计量 x(1),x(2),x(n)则既不独立,分布也不相同,看下例。0 1 2(1)xp1927727127(3)x7271927p127 0 1 2我们可以清楚地看到这三个次序统计量的分布是不相同的。(2)x1327727p727 0 1 2进一步,我们可以给出两个次序统计量的联合分布,如,x(1)和x(2)的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为 P(x(1)=0,x(2)=0)=7/27 ,二者不等,由此可看出x(1)和 x(2)是不独立的。而 P(x(1)=0)*P(x(2)=0)=(19/27)*(7/27),二、单个次序统计量的分布定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x),x1,x2,xn为样本,则第k个 次序统计量x(k)的密度函数为)()(1()()!()!1(!)(1xpxFxFknknxpknkk例5.3.7 设总体密度函数为 p(x)=3x2,0 x1.从该总体抽得一个容量为5的样本,试计算 P(x(2)1/2)。解:有两种求法:从古典概型出发;从次序统 计量密度函数出发。例5.3.8 设总体分布为U(0,1),x1,x2,xn为样 本,试求第 k 个次序统计量的分布。三、多个次序统计量的联合分布对任意多个次序统计量可给出其联合分布,以两个为例说明:定理5.3.6 在定理5.3.5的记号下,次序统计 量(x(i),x(j),(i j)的联合分布密度函数为zyzpypzFyFzFyFjnijinzypjnijiij),()()(1)()()()!()!1()!1(!),(11次序统计量的函数在实际中经常用到。如 样本极差 Rn=x(n)x(1),样本中程 x(n)x(1)/2。样本极差是一个很常用的统计量,其分布只在很少几种场合可用初等函数表示。令 R=x(n)x(1),由 R 0,可以推出0 x(1)=x(n)R 1 R,则例5.3.9 设总体分布为U(0,1),x1,x2,xn 为 样本,则(x(n),x(1)的联合密度函数为p1,n(y,z)=n(n1)(zy)n-2,0 y z 1这正是参数为(n1,2)的贝塔分布。1220()(1)()d(1)(1)rnnRprn nyryyn nrr样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:更一般地,样本p分位数mp可如下定义:120.5122,12nnnxnmxxn 为奇数,为偶数(1)()(1),1(