这种数据格式就不是原始的数据,而是经过分组整理了,使用加权算术平均数计算,公式:
极端值情况
从公式可以看出,平均值的计算与样本的每一个数值都有关,所以比较有代表性,但是在数据没有极端值的情况下,如果出现极端值,平均数就有可能不足以代表大多数样本个案的性质。
比如,一个班的五位学生考试成绩分别为:10 70 80 90 100。
根据数据格式,算一下它的算术平均值:
M(5位学生)=(10 70 80 90 100)/5
=70
这五位学生的算术平均值是70分,观察原始数据,有四位学生的分数大于或等于70分,只有一位学生分数低于70分,判断出来,用70分来代表这组数据的集中情形是不恰当的。再观察原始数据,是10这个极端值,一下拉低了整个平均分,所以我们去掉这个10分的考试成绩再算一下剩下四位学生的算术平均值:
M(四位学生)= (70 80 90 100)/4
=85
85分就可以比较好的代表4位学生的集中趋势了,两位同学分数低于85,两位高于85分。
③中位数
中位数是样本数据升序排列后的最中间的数值,如果数据偏离较大,一般用中位数描述整体水平情况。
中位数的计算分两种情况:
当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N 1)/2
比如,一个班的5位学生的成绩分别为:30 70 40 50 80,中位数是什么呢?
①先把这五个分数从小到大排序:30 40 50 70 80。
②算出中位数应该在排序后的数列中的位置:(5 1)/2=3。
③所以中位数就正好是处在第三个位置的分数值,即50。
当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N 1)/2。
比如,一个班有六位学生,考试成绩分别是:30 70 80 40 90 60,中位数是什么呢?
①先把这五个分数从小到大排序:30 40 60 70 80 90。
②算出中位数应该在排序后的数列中的位置:(6 1)=3.5。
③因为位置必须是整数,但现在是小数,所以为了公平,把在3.5左右两个位置(第三位和第四位)都拿出来。取两个位置的分数值的平均值作为中位数:(60 70)/2=65。
从中位数的计算方法可以看出,它和每个数据的位置有关系,所以如果有极端值出现,无论是特别大或特别小的极端值,都会因为对所有样本数据排序的这个动作,而被排列到某个数列的两端去,它不会有机会被排序到中间位置,而中位数是最中间位置的数,所以极端值不会影响到中位数,这样当有极端值出现,我们无法用平均值很好的描述数据情况,就可以使用中位数。
(2)离散趋势
①极差(全距)
极差的计算很简单,极差等于最大值减最小值,因为计算简单,概念清晰,所以应用比较广泛。
比如,有一组同龄男孩的身高(cm)分别为:90 95 100 105 110,算出极差。
①首先找出最大值和最小值:90,110
②极差等于最大值减去最小值:110-90=20
易受极端值影响
既然极差这个值是由一组数据中的最大值和最小值来确定的。相应的就需要考虑一个问题,数据的最大最小值是正常数据,算下来的极差对分析数据的离散特征的确是有意义的;但假如数据存在极端值,极差会受到影响。
②四分位数
四分位数是把全部数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数:
上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)
下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)
中间的四分位数即为中位数
四分位数可以很容易地识别异常值。多应用于统计图中的箱线图绘制,箱线图就是根据四分位数做的图。
四分位数和中位数的计算方法一样,不同是中位数要找的是位于排序数列被分为两半后最中间的数,四分位数要找的是数据被分为四段,从左到右在1/4处的数和从右到左找在1/4处的数。
③方差与标准差
方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是对方差开方。方差与标准方差与标准差反映一组数据的平均离散水平。方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。
方差计算公式:
标准差是方差的正平方根: