什么是残差?

线性回归是一种统计工具,用于确定直线拟合一组配对数据的程度。最适合该数据的直线称为最小二乘回归线。该线可以多种方式使用。其中一个用途是估计解释变量给定值的响应变量的值。与这个想法有关的是剩余的。

通过执行减法获得残差。我们必须做的就是从特定xy的观测值中减去y的预测值。结果称为残差。

16残差公式17 18

残差公式很简单:

剩余观测值24 y 25-预测值26 y 27

重要的是要注意,预测值来自我们的回归线。观察值来自我们的数据集。

示例

我们将通过使用一个例子来说明这个公式的使用。假设我们得到了以下一组配对数据:

(1,2),(2,3),(3,7),(3,6),(4,9),(5,9)

通过使用软件,我们可以看到最小二乘回归线是y=2x。我们将使用它来预测x的每个值的值。

例如,当x=5时,我们看到2(5)=10。这给了我们沿着回归线的点,x坐标为5。

为了计算x=5点处的残差,我们从观测值中减去预测值。由于我们数据点的y坐标为9,因此残差为9–10=-1。

在下表中,我们将看到如何计算此数据集的所有残差:

教育_1

92>观察y94>Predicted y 95>112 3 113136 0 137
X剩余
1220
24-1
3761
366
4981
5910-1

残差特征

现在我们已经看到了一个示例,需要注意残差的一些特征:

  • 残差对于落在回归线以上的点是正的。
  • 对于落在回归线以下的点,残差是负的。
  • 对于完全沿着回归线落下的点,残差为零。
  • 残差的**值越大,点越远离回归行。
  • 所有残差的总和应为零。实际上,这个总和有时并不完全为零。造成这种差异的原因是折衷错误可能会累积。

残差的使用

残差有几种用途。一个用途是帮助我们确定我们是否有一个具有整体线性趋势的数据集,或者我们是否应该考虑不同的模型。其原因是残差有助于放大我们数据中的大班健康知识任何非线性模式。通过查看散点图可能难以看到的内容可以通过检查残差和相应的残差图更容易地观察到。

考虑残差的另一个原因是检查是否满足线性回归推断的条件。在验证线性趋势(通过检查残差)之后,我们还检查残差的分布。为了能够执行回归推断,我们希望关于回归线的残差近似正态分布。直方图或stemplot残差将有助于验证是否满足此条件。