统计中的相关性是什么?

有时数字数据是成对的。也许古生物学家测量同一恐龙物种的五个化石中股骨(腿骨)和肱骨(臂骨)的长度。将手臂长度与腿部长度分开考虑,并计算诸如平均值或标准偏差之类的事情可能是有意义的。但是,如果研究人员很想知道这两种测量之间是否存在关系呢?它'仅仅从腿部分开看手臂是不够的。相反,古生物学家应该为每个骨骼配对骨骼的长度,并使用称为相关性的统计区域。

什么是相关性?在上面的例子中,假设研究人员研究了这些数据,并得出了不太令人惊讶的结果,即具有较长臂的恐龙化石也具有较长的腿,并且具有较短臂的化石具有较短的腿。数据的散点图显示数据点都聚集在一条直线附近。然后研究人员会说,化石的臂骨和腿骨的长度之间存在强烈的直线关系,或相关性。需要做更多的工作来说明相关性有多强。

相关性和散点图

由于每个数据点代表两个数字,因此二维散点图对于可视化数据非常有帮助。假设我们实际上掌握了恐龙数据,五个化石有以下测量:

  1. 股骨50cm,肱骨41cm 21 22股骨57cm,肱骨61cm 23 24股骨61cm,肱骨71cm 25 26股骨66cm,肱骨70cm 27 28股骨75cm,肱骨82cm 29

数据的散点图,在水平方向上进行股骨测量,在垂直方向上进行肱骨测量,得到上图。每个点代表一个骨架的测量值。例如,左下角的点对应池塘到骨架#1。右上角的点是骨架#5。

当然看起来我们可以画出一条非常接近所有点的直线。但是我们怎样才能确定呢?亲密关系在旁观者的眼中。我们如何知道我们对"亲密度"与其他人匹配的定义?我们有没有办法量化这种亲密度?

相关系数

为了客观地测量数据沿直线的接近程度,相关系数来拯救。相关系数通常表示为r,是-1和1之间的实数。r的值衡量基于公式的相关强度,消除过程中的任何主观性。用车小知识在解释r的值时,需要记住几个准则。

  • 如果r=0,则这些点是完全混杂的,数据之间**没有直线关系。
  • 如果r=-1或r=1,那么所有数据点都完美地排列在一条线上。
  • 如果r是这些极值以外的值,则结果是不完美的一条直线。在现实世界的数据集中,这是最常见的结果。
  • 如果r为正,则该线以正斜率上升。如果r为负,则该线将向下倾斜,斜率为负。

相关系数

的计算

相关系数r的公式很复杂,如此处所示。公式的组成部分是两组数值数据的均值和标准差,以及数据点的数量。对于大多数实际应用,r手工计算很繁琐。如果我们的数据已经输入到一个计算器或电子表格程序与统计命令,那么通常有一个内置的功能离子计算r

相关性的局限性

虽然相关性是一个强大的工具,但使用它有一些限制:

  • 相关性并不能完全告诉我们有关数据的一切。平均值和标准偏差仍然很重要。
  • 数据可以用比直线更复杂的曲线来描述,但这不会出现在r的计算中。
  • 异常值强烈影响相关系数。如果我们在数据中看到任何异常值,我们应该小心我们从r的值中得出的结论。
  • 仅仅因为两组数据是相关的,它就不会't意味着一个是另一个的原因。

教育_1