如何在统计中确定异常值?

异常值是与一组数据中的大多数数据差别很大的数据值。这些值超出了数据中存在的总体趋势。仔细检查一组数据以寻找异常值会导致一些困难。虽然很容易看出,可能通过使用stemplot,某些值与其余数据不同,但必须将该值视为异常值有多大差异?我们将研究一个特定的测量,这将给我们一个客观的标准,什么构成异常值。

Interquartile Range

四分位间距是我们可以用来确定极值是否确实是异常值的范围。四分位间距基于数据集的五个数字摘要的一部分,即**个四分位数和第三个四分位数。四分位间距的计算涉及单个算术运算。我们要做的就是找到四分位间距,就是从第三四分位数中减去**个四分位数。由此产生的差异告诉我们如何分散我们数据的中间部分。

14确定异常值15 16

将四分位间距(IQR)乘以1.5将为我们提供一种确定某个值是否为异常值的方法。如果我们从**个四分位数中减去1.5 x IQR,则任何小于此数字的数据值都被视为异常值。同样,如果我们将1.5 x IQR添加到第三四分位数,则任何大于此数字的数据值都被视为异常值。科普背景

强异常值

一些异常值显示出与数据集其余部分的极端偏差。在这些情况下,我们可以采取上述步骤,仅更改我们将IQR乘以的数字,并定义某种类型的异常值。如果我们从**个四分位数中减去3.0 x IQR,则任何低于此数字的点都称为强异常值。同样,在第三四分位数上添加3.0 x IQR可以让我们定义st通过查看大于此数字的点来显示异常值。

弱异常值

除了强异常值外,还有另一类异常值。如果数据值是异常值,但不是强异常值,那么我们说该值是弱异常值。我们将通过探索一些例子来看待这些概念。

示例1

首先,假设我们有数据集{1,2,2,3,3,4,5,5,9}。数字9当然看起来可能是一个异常值。它远远大于集合其余部分的任何其他值。为了客观地确定9是否是异常值,我们使用上述方法。**个四分位数是2,第三个四分位数是5,这意味着四分位数范围是3。我们将四分位间距乘以1.5,得到4.5,然后将这个数字加到第三四分位数。结果9.5大于我们的任何数据值。因此没有异常值。

示例2

现在,我们查看与以前相同的数据集,不同的是**值为10而不是9:{1、2、2、3、3、4、5、5、10}。**个四分位数,第三个四分位数和四分位间距与示例1相同。当我们将1.5 x IQR=4.5添加到第三四分位数时,总和为9.5。由于10大于9.5,因此被认为是异常值。

科普_1

10是强还是弱异常值?为此,我们需要看3 x IQR=9。当我们在第三四分位数加9时,我们最终得到14的总和。由于10不大于14,因此它不是一个强异常值。因此,我们得出结论,10是一个弱异常值。

识别异常值的原因

我们总是需要注意异常值。有时它们是由错误引起的。其他时间异常值表示存在先前未知的现象。我们需要勤奋检查异常值的另一个原因是因为所有的描述性统计数据都很敏感异常值。配对数据的均值,标准差和相关系数只是这些类型统计数据中的一小部分。