两种人口比例差异的置信区间

置信区间是推论统计的一部分。本主题背后的基本思想是使用统计样本估计未知总体参数的值。我们不仅可以估计参数的值,但我们也可以调整我们的方法来估计两个相关参数之间的差异。例如,我们可能希望找到支持特定立法的美国男性**人口与女性**人口相比所占百分比的差异。

我们将通过为两个人口比例的差异构建置信区间来看到如何进行这种类型的计算。在此过程中,我们将研究此计算背后的一些理论。我们将看到在如何构建置信区间方面的一些相似之处对于单一人口比例以及信心两种人口均值差的区间。

通用性

在查看我们将使用的特定公式之前,让我们考虑这种类型的置信区间所适合的总体框架。我们将看到的置信区间类型的形式由下式给出:

估计+/-误差范围

许多置信区间都是这种类型的。我们需要计算两个数字。这些值中的**个是参数的估计值。第二个值是误差幅度。这个误差幅度说明了我们确实有一个估计值。置信区间为我们提供了一系列未知参数的可能值。

Conditions

在进行任何计算之前,我们应该确保满足所有条件。要找到两个人口比例差异的置信区间,我们需要确保以下内容成立:

    我们有两个来自大量人口的简单随机样本这里"大"意味着人口至少比样本大小大20倍。样本容量用35 n 36和37 n 38表示。我们的个人是彼此独立选择的。我们每个样本至少有十个成功和十个失败。43

如果列表中的**一项不满足,那么可能有一种方法可以解决这个问题。我们可以修改正四置信区间构造并获得稳健的结果。随着我们前进,我们假设所有上述条件都已满足。

样本和人口比例

现在我们准备好构建我们的置信区间。我们从估计人口比例之间的差异开始。这两个人口比例都是通过样本比例来估计的。这些样本比例是通过将每个样本中的成功次数除以相应样本大小而找到的统计数据。

**个种群比例用60 p 61表示。如果我们从这个种群中获得的成功数是62 k 63,那么我们的样本比例就是64 k 65 66/n 67

我们用p̂表示这个统计量。我们把这个符号读为"p-hat"因为它看起来像顶部有帽子的符号p。

以类似的方式,我们可以计算第二个种群的样本比例,这个种群的参数是76 p 77,如果我们从这个种群的样本中获得成功的数量是78 k 79,我们的样本比例是p 80 k 81 82/n 83

这两个统计数据成为我们置信区间的**部分。p的估计值为p̂。p的估计值为p̂,因此差异p-p的估计值为p̂-p̂

样本比例差异的抽样分布

氖xt我们需要获得误差裕度的公式。为此,我们将首先考虑p̂的采样分布。这是一个二项分布,成功概率pn试验。这种分布的平均值是比例p。这种随机变量的标准差方差p(1-p)/n

p̂的抽样分布与p̂的抽样分布相似。简单地将所有指数从1变为2,我们有一个二项式分布,均值方差p(1-p)/n

为了确定p̂-p̂的抽样分布,我们现在需要数学统计的一些结果。该分布的平均值为p-p。由于方差加在一起,我们看到采样分布的方差是p(1-p)/n+p(1-p)/n分布的标准偏差是这个公式的平方根。

我们需要做一些调整。首先,p̂-p̂的标准差公式使用pp的未知参数。当然,如果我们真的知道这些值,那么这根本不是一个有趣的统计问题。我们不需要估计pp之间的差异,而是可以简单地计算出确切的差异。

这个问题可以通过计算标准误差而不是标准偏差来解决。我们需要做的就是用样本比例代替总体比例。标准误差是根据统计而不是参数计算出来的。标准误差是有用的,因为它有效地估计了标准偏差。这对我们来说意味着我们不再需要知道参数pp由于这些样本比例是已知的,因此标准误差由以下表达式的平方根给出:

p̂(1-p̂)/n+p̂(1-p̂)/n

我们需要解决的第二个问题是我们的抽样分布的特定形式。事实证明,我们可以使用正态分布来近似p̂-p̂的抽样分布。其原因有些技术性,但概述如下一段。

元旦小知识

p̂和p̂都具有二项式的抽样分布。这些二项式分布中的每一个都可以通过正态分布很好地近似。因此p̂-p̂是一个随机变量。它被形成为两个随机变量的线性组合。这些都是通过正态分布来近似的。因此抽样p̂-p̂的分布也是正态分布的。

置信区间公式

估计值是(p̂-p̂),误差范围是z*[p̂(1-p̂)/n+p̂(1-p̂)/n]0.5。我们输入z*的值取决于置信水平C.204>z*的常用值是1 1-p̂(1-p̂)/n]0.5。我们输入z*201>的值取决于置信水平C.零点**五对于90%置信度和1.96对于95%置信度。z*的这些值表示标准正态分布的部分,其中恰好C分布的百分比在-z之间*z**

以下公式为我们提供了两个人口比例差异的置信区间:

(p̂-p̂)+/-z*[p̂(1-p̂)/n+p̂(1-p̂)/n]0.5

311