统计中的相关性和因果关系

午餐一天,一名年轻女子正在吃一大碗冰淇淋,一名教职员工走到她身边说:“你**小心,冰淇淋和溺水之间有很高的统计相关性。”她必须给他一个困惑的样子,因为他详细阐述了一些。“冰淇淋销售额最多的日子也看到大多数人溺水。”

当她完成冰淇淋后,两位同事讨论了这样一个事实,即仅仅因为一个变量在统计上与另一个变量相关,并不意味着一个变量是另一个变量的原因。有时会有一个变量隐藏在背景中。在这种情况下,一年中的某一天隐藏在数据中。炎热的夏季比雪冬季销售更多的冰淇淋。更多的人在夏天游泳,因此在夏天比在冬季溺水更多。

注意潜伏的变量

上述轶事是所谓的潜伏变量的主要例子。顾名思义,潜伏的变量可能难以捉摸,难以发现。当我们发现两个数字数据集密切相关时,我们应该总是问:“是否还有其他因素导致这种关系?”

以下是潜伏变量引起的强相关性示例:

  • 一个国家每人的平均计算机数量和该国的平均预期寿命。
  • 火灾消防员的数量和火灾造成的损害。
  • 身高一名小学生及其阅读水平。

在所有这些情况下,变量之间的关系都是非常强的。这通常由一个值接近1或-1的相关系数表示。这个相关系数与1或-1,这个统计不能表明一个变量是另一个变量的原因。

检测潜伏变量的数量

就其性质而言,潜伏的变量很难被发现。一个策略,如果可用,是检查随着时间的推移数据会发生什么。这可以揭示季节性趋势,例如冰淇淋示例,当数据集中在一起时会变得模糊。另一种方法是查看异常值并尝试确定使它们与其他数据不同的原因。有时这提供了一个暗示背后发生了什么。**的做法是积极主动科普知识手抄报资料;仔细质疑假设和设计实验。

为什么重要?

在开放的情景中,假设一位意义重大但统计上不知情的国会议员建议禁止所有冰淇淋以防止溺水。这样的法案会给大部分人口带来不便,迫使几家公司破产,并在该国冰淇淋行业关闭时消除数千份工作。尽管意图**,但这项法案不会减少溺水死亡人数。

如果这个例子看起来有点牵强,请考虑以下实际发生的事情。在20世纪初,医生注意到一些婴儿在睡眠中因感觉到的呼吸问题而神秘地死亡。这被称为crib死亡,现在被称为小岛屿发展国内家。对死于SIDS的人进行尸检时发现的一件事是胸腺增大,位于胸部的腺体。根据SIDS婴儿胸腺增大的相关性,医生推测胸腺异常大会导致呼吸和死亡不当。

提出的解决方案是用高剂量的辐射收缩胸腺,或完全去除腺体。这些程序死亡率很高,导致更多的死亡。遗憾的是,不必执行这些操作。随后的研究表明,这些医生的假设是错误的而且胸腺对SIDS不负责任。

相关性并不意味着因果关系

当我们认为统计证据被用来证明医疗方案,立法和教育建议等理由时,上述情况应该让我们暂停。在解释数据方面做得很好,特别是如果涉及相关性的结果会影响他人的生活,这一点很重要。

当有人陈述时,“研究表明A是B的原因,一些统计数据支持它,”准备回复,“相关性并不意味着因果关系“。始终注意数据下面潜伏的内容。