什么是四分位间距规则?

四分位间距规则可用于检测异常值的存在。异常值是超出数据集整体模式的单个值。这个定义有点模糊和主观,所以在确定数据点是否真的是异常值时有一个规则是有帮助的-这就是四分位间距规则进入的地方。

四分位间距是多少?

任何一组数据都可以通过其五个数字摘要来描述。这五个数字为您提供了查找模式和异常值所需的信息,包括(按升序排列):

  • 数据集的最小值或**值
  • **个四分位数Q,代表通过所有数据列表的方式的四分之一
  • 数据集的中位数,它代表整个数据列表的中点
  • 第三四分位数Q,它代表通过所有数据列表的四分之三
  • 数据集的**值或**值。

这五个数字告诉一个人更多关于他们的数据,而不是一次查看数字,或者至少让这更容易。例如,从**值中减去的最小值的范围是数据在集合中展开的一个指标(注意:范围对异常值高度敏感如果异常值也是最小值或**值,则范围不会准确表示数据集的宽度)。

否则很难推断范围。四分位间距与范围相似,但对异常值不太敏感。四分位间距的计算方式与范围大致相同。你所做的就是从第三四分位数中减去**个四分位数:

IQR=QQ

四分位间距显示数据如何在中位数上传播。它比离群值的范围更不敏感因此可以更有帮助。

教育_1

Using the Interquartile Rule to Find离群值

虽然它'通常不受它们的影响很大,但四分位数范围可用于检测异常值。这是通过以下步骤完成的:

  1. 计算数据的四分位间距。
  2. 将四分位间距(IQR)乘以1.5(用于辨别异常值的常数)。
  3. 将1.5 x(IQR)加到第三四分位数。任何大于此值的数字都是可疑的异常值。
  4. 从**个四分位数中减去1.5 x(IQR)。少于此数字的任何数字都是可疑的异常值。

请记住,四分位数规则只是一般适用但不适用于每种情况的经验法则。一般来说,您应该始终通过研究生成的异常值来跟踪异常值分析,以确定它们是否有意义。通过四分位数方法获得的任何潜在异常值应在整个数据集的背景下进行检查。

四分位规则示例问题

请参阅示例中的四分位间距规则。假设你有以下一组数据:1,3,4,6,7,7,8,8,10,12,17。该数据集的五位数汇总为最小值=1,**个四分位数=4,中位数=7,第三个四分位数=10,**值=17。您可以查看数据并自动说17是异常值,但四分位间距规则是什么意思?

如果要计算此数据的四分位间距,您会发现它是:

88 Q 89-90 Q 91 10-46

现在将你的答案乘以1.5得到1.5 x 6=9。比**个四分位数少九个是4–9=-5。没有数据小于此。超过第三四分位数的九个是10+9=19。没有数据大于此。尽管**值比最近的数据点多5个,但四分位间距规则显示它可能不应该被考虑d此数据集的异常值。

生活常识ppt