温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
统计
术语
统计术语
平均数(mean):
是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。
加权平均数(weighted average):将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。
某集市出售一种 蔬菜相关问答:1肉牛的肥育类型有哪些?2放牧肥育指的是什么?3成年牛的肥育方法是什么?4肉牛肥育技术是什么?5犊牛肥育指的是什么?6育成牛的肥育方法有哪些优点?7舍饲肥育有哪些优点?8肉牛肥育技术原理是什么?9肉牛肥育化学技术有哪些?10提高母牛繁殖率的措施有哪些?,上午每千克4元,成交200千克;下午每千克3元,成交50千克,求这种蔬菜这一天的平均价格。
按照简单的算术平均:(4+3)/2=3.5(元/千克),这显然并不能正确反映这一天这种蔬菜的平均价格;
正确的算法应该是:(4*200+3*50)/(200+50)=4*(200/250)+3*(50/250)=4*(4/5)+3*(1/5)=16/5+3/5=19/5=3.8(元/千克),即这一天这种蔬菜的平均价格是每千克3.8元。
就是说在这个问题里,4与3在计算平均值时权重是不一样的,数4/5,1/5分别称为它们的权数,式子4*(4/5)+3*(1/5)就称为它们的加权平均。
权重(weight):有很多成分要算平均,但是每个成分对整体的影响不同,所以有权重。
离散度(Dispersion)
标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。
虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。一组数据怎样去评价和量化它的离散度,有很多种方法:
极差(Range):最直接也是最简单的检测离散度的方法。是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。 它是标志值变动的最大范围,它是测定标志变动的最简单的指标。 移动极差(Moving Range)是其中的一种。比如比赛中去掉最高最低分就是极差的具体应用。
离均差平方和(SS,sum of squares of deviation from mean):
由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。
但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。
方差(variance, S2):s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/(n) (x为平均数)
由于离均差的平方和与样本个数有关,只能反应相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将离均差的平方和求平均值,这就是我们所说的方差成了评价离散度的较好指标。
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
样本量越大越能反映真实的情况,而算术平均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它的意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
协方差(Covariance):
在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。协方差为0的两个随机变量称为是不相关的。
标准差(Standard Deviation): (N=n-1)
由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。
中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
变异系数(Coefficient of Variance,CV):
标准差能很客观准确的反映一组数据的离散程度,但是对于不同的项目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV。
标准误(standard error):
表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本容量的开平方来计算的。从这里可以看到,标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。
一个正态分布的总体,抽取n个作为样本,可以得到样本平均值,用样本均值估计总体均值需要考虑样本均值的方差或标准差(也就是标准误)。公式:
中位数(又称中值,英语:Median):统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
众数(Mode):统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。
ANOVA 和 T-test的区别是什么?
ANOVA 使用的是F统计量,统计量是组间方差与组内方差之比,多用于组数超过两组的情形。T-test使用的是 t 统计量,统计量是均值之差与加权平均标准差之比,用于两组同/异方差的数据。