了解统计中的四分位间距

四分位间距(IQR)是第一个四分位数和第三个四分位数之间的差异。这个公式是:

IQR=Q-Q

对一组数据的可变性有许多测量。范围和标准差都告诉我们如何分散我们的数据。这些描述性统计数据的问题在于它们对异常值非常敏感。四分位间距是对异常值存在更具抵抗力的数据集扩展的度量。

教育资源网_1

四分位间距的定义

如上所述,四分位间距建立在其他统计数据的计算基础上。在确定四分位间距之前,我们首先需要知道第一个四分位数和第三个四分位数的值。(当然,第一和第三四分位数取决于中位数的值)。

一旦我们确定了第一和第三四分位数的值,四分位数范围很容易计算。我们要做的就是从第三四分位数中减去第一个四分位数。这解释了这个统计量使用术语四分位间距。

示例

为了看到计算四分位间距的例子,我们将考虑一组数据:2,3,3,4,5,6,6,7,8,8,9。这组数据的五个数字摘要是:

  • 最小值2
  • 第一个四分位数3.5
  • 中位数6
  • 第三个四分位数8
  • **值9

因此,我们看到四分位间距为8–3.5=4.5。

The Significance of The Interquartile Range

该范围使我们能够衡量整个数据集的分布情况。四分位数范围告诉我们第一和第三四分位数相距多远,表明我们的数据集的中间50养生小常识大全%是如何分布的。

抵抗异常值

使用四分位间距而不是测量数据集扩展范围的主要优点是四分位间距对异常值不敏感。为了看到这一点,我们将看看一个例子。

从上面的数据集中,我们的四分位间距为3.5,范围为9-2=7,标准差为2.34。如果我们用100的极端异常值替换**值9,则标准偏差变为27.37,范围为98。即使我们的这些值发生了相当剧烈的变化,第一和第三四分位数也不受影响,因此四分位数范围不会改变。

使用四分位间距

除了作为对数据集传播的不太敏感的度量之外,四分位间距还有另一个重要用途。由于其对异常值的抵抗力,四分位间距可用于识别值何时为异常值。

四分位间距规则是通知我们是否有轻微或强烈的异常值。为了寻找异常值,我们必须看到第一个四分位数以下或第三个四分位数以上。我们应该走多远取决于四分位间距的值。