,方差分析 Analysis of variance,(ANOVA),问题引入:多组资料均数的比较问题?,t 检验可以判断两组数据平均数间的差异显著性,而方差分析既可以判断两组又可以判断多组数据平均数之间的差异显著性。,有人说,我们可以把多组数据化成n个两组数据(化整为零),用n次t检验来完成这个多组数据差异显著性的判断。,到底这种方法行不行,?,对多个处理进行平均数差异显著性检验时,采用t检验法的缺点:,1.检验过程烦琐。,试验包含个处理,t 检验:C42 6次,缺 点,缺 点,2.无统一的试验误差,误差估计的精确性和检验的灵敏性低。,t检验:C42 6次,需计算 6个标准误,误差估计不统一,误差估计精确性降低,缺 点,3.推断的可靠性低,检验时犯错误概率大。,t检验:C42 6次,H0的概率:1-0.95,6次检验相互独立,6次都接受的概率(0.95)60.735,犯错误的概率1-0.7350.265,犯错误的概率明显增加,例如我们用t检验的方法检验4个样本平均数之间的差异显著性,因素水平(level of factor):试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如研究3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平。,试验处理(treatment):事先设计好的实施在实验单位上的具体项目就叫试验处理。如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体饲喂哪一种饲料。,方差分析的用途:用于实验研究中,比较某处理因素不同水平样本均数间差别有无统计学意义,从而说明处理因素是否有作用的方法。根据实验设计的不同,有:1.单因素的方差分析2.多因素(两因素及以上)方差分析,第一节 方差分析的基本思想和应用条件,名词解释,处理因素和水平:研究者对研究对象人为地施加某种干预措施,称为处理因素(factor)或实验因素,处理因素所处的状态称为水平(level),因素的水平可以为定性或计量的值。处理因素的水平数2,即实验的组数。,例:三种抗凝剂测定红细胞沉降率(%)的比较,标本 甲 乙 丙 1 17 10 11 2 16 11 9 3 16 12 8 4 15 12 9 16.0 11.3 9.3,处理因素=抗凝剂,水平数=3(定性分类),实验因素,单因素实验:指实验中的干预因素只有一个,这个处理因素包括g(g2)个水平,分析不同水平的实验结果差别是否有统计意义。多因素实验:指实验中的处理因素不只一个,各因素的水平有2,分析某因素不同水平的结果有无差别,分析因素对实验结果有无交互作用。,例4-2:研究一种降血脂新药的临床疗效,研究对象:高血脂病人处理因素:降血脂药水平:服降血脂新药2.4g组 4.8g组 7.2g组 安慰剂组试验效应指标;低密度脂蛋白,两因素设计,例:研究蛋白含量因素(A),分为正常(a1)、缺乏(a2),脂肪含量因素(B),分为正常(b1)、缺乏(b2),对大鼠的营养状况研究。16只大鼠按完全随机化方法分到以下4组做试验。4种处理组某营养指标结果 a1b1 a1b2 a2b1 a2b2 15 18 20 25 21 23 28 37 25 28 19 35 32 35 26 4,观测值不同的原因,处理效应(treatment effect):处理不同引起,试验误差:试验过程中偶然性因素的干扰和测量误差所致。,方差:是标准差的平方,是表示变异的量。,在一个多处理试验中,可以得出一系列不同的观测值。,一、方差分析的基本思想,一、方差分析的基本思想,总变异,处理效应,试验误差,一、方差分析的目的,确定各种原因在总变异中所占的重要程度。,处理效应,试验误差,相差不大,说明试验处理对指标影响不大。,相差较大,即处理效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。,二、数学模型,假定有k组观测数据,每组有n个观测值,则共有nk个观测值,用线性模型(linear model)来描述每一观测值:,xij=+i+ij,(i=1,2,3,k j=1,2,3,n),总体平均数,i 处理效应,ij 试验误差,xij 是在第 i 次处理下的第 j 次观测值,要求ij 是相互独立的,且服从标准正态分布 N(0,2),二、数学模型,对于由样本估计的线性模型为:,xij=x+ti+eij,x 样本平均数,ti 样本处理效应,eij 试验误差,二、数学模型,根据的i不同假定,可将数学模型分为以下三种:,固定模型,随机模型,混合模型,二、数学模型,(一)固定模型(fixed model),指各个处理的效应值i 是固定值,各个的平均效应i i 是一个常量,且i 0。就是说除去随机误差以后每个处理所产生的效应是固定的。,二、数学模型,实验因素的各水平是根据试验目的事先主观选定的而不是随机选定的。,不同离子对木聚糖酶活性的影响(mg/ml),0.000.250.500.751.001.25,0.000.060.120.180.240.30,0.000.400.801.201.602.00,0.000.400.600.801.001.20,固定模型,Na+,K+,Cu2+,Mn2+,二、数学模型,在固定模型中,除去随机误差之后的每个处理所产生的效应是固定的,试验重复时会得到相同的结果,方差分析所得到的结论只适合于选定的那几个水平,并不能将其结论扩展到未加考虑的其它水平上。,固定模型,二、数学模型,(二)随机模型(random model),指各处理的效应值i 不是固定的数值,而是由随机因素所引起的效应。,这里i 是一个随机变量,是从期望均值为 0,方差为2 的标准正态总体中得到的随机变量。得出的结论可以推广到多个随机因素的所有水平上。,二、数学模型,随机模型,美国的黑核桃品种对不同地理条件的适应情况,气候、水肥、土壤,无法人为控制,河南,北京,广州,江苏,新疆,二、数学模型,如果实验条件不能人为控制,那么这个样本对所属总体作出推断就属于随机模型。,随机模型,在随机模型中,水平确定之后其处理所产生的效应并不是固定的,试验重复时也很难得到相同的结果,方差分析所得到的结论,可以推广到这个因素的所有水平上,二、数学模型,固定模型与随机模型的比较,1.两者在设计思想和统计推断上有明显不同,因此进行方差分析时的公式推导也有所不同。其平方和与df的分解公式没有区别,但在进行统计推断时假设检验构成的统计数是不同的。,2.模型分析的侧重点也不完全相同,方差期望值也不一样,固定模型主要侧重于效应值的估计和比较,而随机模型则侧重效应方差的估计和检验,3.对于单因素方差分析来说,两者并无多大区别,二、数学模型,(三)混合模型(mixed model),指多因素试验中既有固定因素又有随机因素时所用的模型,在实际应用中,固定模型应用最多,随机模型和混合模型相对较少,二、数学模型,方差分析的基本思想(单因素),数据 变异的原因可用下列模型表示,某次实验全部变量值变异的数学模型表达,总变异=处理因素作用+实验误差作用(随机误差),组间变异:用SS组间表示 各处理组样本均数间的差异,引起原因有两种:(1)随机误差(测量误差和个体差异)(2)处理因素效应 组内变异:用SS组内ss误差表示 同一处理组内各观察值之间的变异,反映随 机误差的大小.,总变异(SS总),全部测量值Xij与总均数间的差别,三种“变异”之间的关系:,均方(mean square,MS),均方之比F 值,F 分布曲线,F 界值表,附表7 F 界值表(方差分析用,单侧界值)上行:P=0.05 下行:P=0.01,