统计数据有什么偏斜?

一些数据分布,如钟形曲线或正态分布,洗护小知识是对称的。这意味着分布的右侧和左侧是彼此完美的镜像。并非每个数据分布都是对称的。非对称的数据集被认为是不对称的。分布不对称的度量称为偏度。

平均值,中位数和模式都是一组数据中心的度量。数据的偏度可以通过这些数量如何相互关联来确定。

斜向右

向右倾斜的数据有一条长尾,向右延伸。谈论偏向右侧的数据集的另一种方式是说它是正偏斜的。在这种情况下,平均值和中位数都大于模式。一般来说,大部分时间数据偏向右侧,平均值将大于中位数。总之,对于向右倾斜的数据集:

  • 总是:平均值大于模式
  • 总是:中位数大于模式
  • 大多数时间:平均值大于中位数

向左倾斜

当我们处理向左倾斜的数据时,情况会逆转。偏向左侧的数据具有延伸至左侧的长尾。谈论偏向左侧的数据集的另一种方式是说它是负偏斜的。在这种情况下,平均值和中位数都小于模式。一般来说,大部分时间数据偏向左侧,平均值将小于中位数。总之,对于偏向左侧的数据集:

  • 总是:平均值小于模式
  • 总是:中位数小于模式
  • 大多数时间:平均值小于中位数

偏度测量

查看两组数据并确定一组数据是一件事对称,而另一个是不对称的。这是另一组查看两组不对称数据,并说一组比另一组更偏斜。通过简单地查看分布图来确定哪个更偏斜可能是非常主观的。这就是为什么有办法数值计算偏度的度量。

一种称为Pearson**偏度系数的偏度度量是从模式中减去平均值,然后将此差异除以数据的标准偏差。划分差异的原因是我们有一个无量纲的数量。这解释了为什么偏向右侧的数据具有正偏斜。如果数据集向右倾斜,则平均值大于模式,因此从平均值中减去模式给出正数。类似的论点解释了为什么偏向左侧的数据具有负偏斜。

皮尔逊的第二偏度系数也用于测量数据集的不对称性。对于这个数量,我们从中位数中减去模式,将这个数字乘以3,然后除以标准差。

偏斜数据的应用

在各种情况下,偏斜的数据都会自然产生。收入偏向右侧,因为即使只有少数几个收入数百万美元的人也会极大地影响平均值,并且没有负收入。同样,涉及产品寿命的数据(如品牌灯泡)向右倾斜。在这里,寿命可以最小的是零,而持久的灯泡会给数据带来正偏差。

教育_1