卡方拟合优度检验的例子

卡方拟合优度检验可用于将理论模型与观察数据进行比较。该测试是一种更一般的卡方检验。与数学或统计学中的任何主题一样,通过卡方拟合优度检验的例子,通过一个例子来理解发生了什么可能会有所帮助。

考虑一个标准的牛奶巧克力M&包装;女士。有六种不同的颜色:红色,橙色,黄色,绿色,蓝色和棕色。假设我们对这些颜色的分布很好奇,问,所有六种颜色是否以相等的比例出现?这是可以通过拟合优度测试来回答的问题类型。

Setting

我们首先注意设置以及为什么适合拟合优度测试。我们的颜色变量是**的。这个变量有六个级别,对应于可能的六种颜色。我们将假设我们计数的M&Ms将是来自所有M&Ms群体的简单随机样本。

Null and Alternative hypothesis

我们拟合优度检验的零假设和替代假设反映了我们对人口做出的假设。由于我们正在测试颜色是否以相等的比例出现,我们的零假设是所有颜色都以相同的比例出现。更正式地说,如果p是红色念珠菌的种群比例,p是橙色念珠菌的种群比例,依此类推,那么零假设是p=p=。=p=1/6。

另一种假设是,至少一个人口比例不等于1/6。

实际和预期计数

实际计数是六种颜色中每种颜色的糖果数量。预期数量是指如果零假设是真的,我们会期待什么。我们将让n成为我们样本的大小。红色糖果的预期数量为p nn/6。实际上,在这个例子中,六种颜色中每种颜色的预期糖果数量仅为npn/6。

拟合优度的卡方统计量

现在,我们将为特定示例计算卡方统计量。假设我们有一个600 M&M糖果的简单随机样本,分布如下:

  • 212的糖果是蓝色的。
  • 147的糖果是橙色的。
  • 103的糖果是绿色的。
  • 50的糖果是红色的。
  • 46的糖果是黄色的。
  • 42的糖果是棕色的。

如果零假设是真的,那么每种颜色的预期计数将是(1/6)×600=100。我们现在在计算卡方统计量时使用它。

我们根据每种颜色计算对统计数据的贡献。每个都是(实际-预期)2/预期的形式:

    对于蓝色,我们有(212-100)95 95 2 96/100 125.44 97 97 98对于橙色,我们有(147-100)99 2 100/100 22.09 101 102对于绿色,我们有(103-100)103 2 104/100/100 0.09 105/105/106对于蓝色,我们有(50-100)107 2 108/100 25 109/110 110对于蓝色,我们有(212-100)9595 2 96/96/100 125.44/100 125.44 97 97/98 98对于橙色,我们有(147-100)
  • 对于棕色,我们有(42–-100)22/100/100=100=在100)2/100=33.64

然后,我们将所有这些贡献相加,并确定我们的卡方统计量为125.44+22.09+0.09+25+29.16+33.64=235.42。

自由度

拟合优度测试的自由度数仅比我们变量的等级数少一个。由于有六种颜色礼仪常识,我们有6-1=5个自由度。

133 134卡方表和P值135 136

我们计算的235.42的卡方统计量对应于具有五个自由度的卡方分布上的特定位置。现在,我们需要一个p值来确定在假设零假设为真的情况下,获得至少与235.42一样极端的检验统计量的概率。

Microsoft的Excel可以用于此计算。我们发现具有五个自由度的检验统计量的p值为7.29 x 10-49。这是一个非常小的p值。

决策规则

我们根据p值的大小决定是否拒绝零假设。由于我们有一个非常小的p值,我们拒绝零假设。我们得出结论,M&Ms在六种不同颜色中分布不均匀。后续分析可用于确定一种特定颜色的人口比例的置信区间。