我们先来复习一下统计学上常用的专门术语:
整体常称为总体,总体中的每一分子称为一个个体。从总体中抽选出的那部分个体,称为样本。样本中所含的个体数,称为样本大小或样本容量。从总体中抽选出样本的过程叫抽样,也有叫取样的。与研究的问题有关的往往只是个体的某项(或某几项)指标,也可把个体的指标值就说成是该个体的。
还有一个很常用的专门统计术语,叫统计量。
统计量是统计理论中用来对数据进行分析、检验的变量,通俗的讲就是指从样本算出的量,在一个问题中考虑怎样的统计量,当然要取决于所要解决的问题的性质。应用上最重要的两个统计量---样本值的平均与样本中带有某种属性的个体的比率。今天我们就来复习一下对它们的认识。
1、平均值(比率)的定义
平均值:
设有N个数值a1 , …, aN,其算术平均值在统计上常称为均值,记为:
比率:
比率可以看作是一种特殊的平均值。
设有N个对象A1, … , AN,其中每个对象或具有某种性质P或不具有性质P,二者必居其一且只居其一。以M记A1, … , AN中具有性质P的个数,则A1, … , AN具有性质P的对象的比率为M/N。现在让我们把每个对象Ai与一个数值Xi对应起来。具体地说,若Ai具有性质P,则令Xi=1,否则令Xi=0。易见
比率M/N等于X1 ,…, Xn的均值`x。
2、 平均值的代表性
先介绍一下总体均值,它是指总体中一切个体的指标值的平均。如果均值是从样本算出来,则称为样本均值。
平均值应用虽然很广,但是它也只是刻画了事物的一个方面。为了对事物作更全面的研究,还需引用其他的统计指标。如总体中各个体的指标值的散布程度。散布程度大小将影响到两件事情:
1) 总体均值在总体各个体指标值中的代表性;
2) 当从总体中抽样以估计总体均值时,估计的准确程度。
3、 数量上对散布程度进行刻画
1) 用极差:用指标值中的最大值减去最小值。这个指标受个别极端值的影响太大。
2) 用平均绝对偏差:
一般地,设一总体包含N个个体,其指标值分别为a1 , …, aN,则其平均绝对偏差定义为
其中`a为a1 , …, aN的均值。
3) 用方差和标准差:
一般地,设一总体包含N个个体,其指标值分别为a1 , …, aN,则其方差为