双向表中变量独立的自由度

两个分类变量独立的自由度数由一个简单的公式给出:(r-1)(c-1)。这里r是行数,c是分类变量值的双向表中的列数。继续阅读以了解有关此主题的更多信息并了解为什么此公式给出正确的数字。

Background

许多假设检验过程中的一个步骤是确定自由度数。这个数字很重要,因为对于涉及一系列分布的概率分布,例如卡方分布,自由度数确定了我们在假设检验中应使用的家庭的确切分布。

自由度代表我们在特定情况下可以做出的自由选择的数量。要求我们确定自由度的假设检验之一是两个分类变量的独立性卡方检验。

独立性测试和双向表

独立性的卡方检验要求我们构建一个双向表,也称为列联表。这种类型的表具有r行和c列,表示一个分类变量的r水平和另一个分类变量的c水平。因此,如果我们不计算记录总数的行和列,则双向表中总共有rc个单元格。

卡方检验的独立性使我们能够检验分类变量彼此独立的假设。如上所述,表中的r行和c列给出我们(r-1)(c-1))自由度。但可能不清楚为什么这是正确的自由度数量。

De的数量自由之家

为了查看为什么(r-1)(c-1)是正确的数字,我们将更详细地检查这种情况。假设我们知道分类变量的每个级别的边际总数。换句话说,我们知道每行的总数和每列的总数。对于**行,我们表中有c列,因此有c个单元格。一旦我们知道这些单元中除了一个单元之外的所有单元的值,那么因为我们知道所有单元的总数,所以确定剩余单元的值是一个简单的代数问题。如果我们填写表格中的这些单元格,我们可以自由输入其中的c-1,但其余单元格由行的总数确定。因此,**行有c-1个自由度。

我们在下一行继续以这种方式,再次有c-1个自由度。这个过程一直持续到我们倒数第二行。除**一行外,每行对总数贡献c-1个自由度。到我们拥有**一行以外的所有内容时,因为我们知道列总和,所以我们可以确定**一行的所有条目。这给了我们r-1行,每行c-1自由度,总共(r-1)(c-1)自由度。

示例

我们通过以下示例看到这一点。假设我们有一个带有两个分类变量的双向表。一个变量有三个级别,另一个变量有两个级别。此外,假设我们知道该表的行和列总数:

114 A级115116级B 117132级133142级3级143
Total
1级100
200
300
总计200400600

该公式预测有(3-1)(2-1)=2个自由度。我们看到如下。假设我们用数字80填充左上角的单元格。这将自动确定整个**行条目:

186 A级187188级B 189级194级1 195198 20 199204级2 205
总计
80100
200
3级300
总计200400600

现在,如果我们知道第二行中的**个条目是50,那么表格的其余部分将被填写,因为我们知道每行和列的总数:

258 A级259286级3 287
B级总计
Level 18020100
Level 250150200
70230300
Total200400600

311该表完全填写,但我们只有两个自由选择。一旦知道这些值,表的其余部分就完全确定了。

虽然我们通常不需要知道为什么有这么多的自由度,但很高兴知道我们真的只是将自由度的概念应用于新的情况。

科普星

科普_1