数极客首页

小白学统计(4)——数据集中趋势的描述

在社会和经济领域中有许多实际发生的数据,因为各种偶然因素的影响,这些数据看起来往往杂乱无章。但是,如果对这些无序的数据进行整理和归纳,就可以发现有一种必然的因素在起作用,这种因素就是社会和经济领域中内在的变化趋势。通过这种趋势的研究可以了解事物的本质特征,可以掌握事物发展变化的规律。这种趋势在统计学中就被称为集中趋势。

小白学统计(4)——数据集中趋势的描述

下面介绍常见的几种反映数据集中趋势的指标:

算术平均数(arithmetic mean),又称均值,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,不适用于品质数据。就是将一组数据的和除以数据的个数。

计算公式:

1. 简单算术平均,适用:主要用于未分组的原始数据。

设一组数据为X1,X2,…,Xn,则简单的算术平均数的计算公式为:

2. 加权算术平均,适用:主要用于处理经分组整理的数据。

设原始数据为被分成K组,各组的组中的值为X1,X2,…,Xk,各组的频数分别为f1,f2,…,fk,则加权算术平均数为:

 

应用问题:

均值是实际中应用最广泛的集中趋势测度值,样本均值受样本数据影响最小,具有一定的稳定性,因此,在抽样推断中均值是用于推断总体的一个最重要指标,但还需要注意以下几个问题:(1)当数据中有极大值或极小值存在时,均值会受到很大影响,其结果会掩盖数据的真实特征,使均值失去代表性。(2)使用分组数据计算总平均数时,由于各组频率对平均数的影响,在对总平均数进行对比时,要注意结合组平均数补充说明。

几何平均数(geometric mean),是指n个观察值连乘积的n次方根。几何平均数主要用于各种比率的平均,尤其在计算动态比率的平均时特别适合。

计算公式:

设一组数据为X1,X2,…,Xn,且均大于0,则几何平均数Xg为:

小白学统计(4)——数据集中趋势的描述

其他应用:

几何平均数在一定场合下,还可以用来说明数据的集中程度。例如,有两组数字分别是18,20,22和15,20,25,如果分别计算两组数字的均值和几何平均数,可以得到两组数据的均值都是20,而几何平均数分别是19.93和19.57,可以看到第一组数据更靠近20。

众数(Mode),是一组数据中出现次数最多的数值,代表数据的一般水平。众数表示的是变量值明显集中的数值点。如果在一组数据中,只有一个变量值出现次数最多,则变量值即为众数;如果有两个(或多个)变量值出现次数相同并最多,那么,两个(或多个)变量值都是众数;如果有两个(或多个)变量值出现次数最多但不相同,则出现次数最多的数值是主要众数,其他为次要众数。当然数据中变量值出现的次数都相同,则该数据没有众数。

众数的应用问题:

众数在某些场合具有不可替代的作用。例如,人们穿着的服装和鞋帽寸吗对于生产厂商非常重要,但用均值计算的服装和鞋帽的数据可能是不存在的,生产厂商只有按照服装和鞋帽尺寸的众数生产才有意义。

众数不仅可以代表数值型变量的集中趋势,还可以代表非数值类型变量的集中趋势。例如,房地产商关心那种“格局”房屋销售最多;饮料厂商关心哪一种“颜色”的饮料销售最多;灯具厂商关心哪一种“造型”的灯具销售最多等等。

总数还有一个作用,当样本数据出现两个众数时,他提醒我们应怀疑这样的数据是否来自两个不同的总体。例如,将两个厂家生产的灯泡混在一起,检查它们的寿命,如果两个厂家生产灯泡的质量有很大差别,则会发现灯泡的寿命会出现两个众数。

最后,众数的实际的代表意义只有在数据足够多,且有明显的集中趋势时,才能体现得最好。否则,不宜用众数代表集中趋势。

中位数(Median),代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

中位数的应用问题:

中位数不受个别极端值的影响,表现出稳定的特性。这一特点使其在数据分布有较大的偏斜时,能够保持对数据一般水平的代表性,因此经常使用。例如,有一组5个人的抽样资料,它们在一周内看电视的时间分别是1,3,7,9,30小时。如果用均值代表5人平均看电视时间,有均值X=10小时,用这个数据代表5个人平均每周看电视的时间显然偏大,因为有30这个数据的影响。而用中位数X=7代表5个人平均每周看电视的时间,就要比用均值具有代表性。中位数另一个优点是方便。在某些场合,不能计算均值时,中位数就是一个较好的度量值。

以上四种反映集中趋势的指标都各有特点,在反映集中趋势时也各有利弊。使用这些指标时,应根据不同的场合以及数据的不同特点加以选择。最好是通过几种平均数相互参考,相互印证。

发表评论

评论已关闭。

相关文章