如何构建人口比例的置信区间-教育资源网

置信区间可用于估计几个总体参数。可以使用推论统计来估计的一种类型的参数是人口比例。例如，我们可能想知道支持特定立法的美国人口的百分比。对于这种类型的问题，我们需要找到一个置信区间。

在本文中，我们将看到如何构建人口比例的置信区间，并研究其背后的一些理论。

总体框架

我们首先看看大局，然后再详细介绍。我们将考虑的置信区间类型如下：

估计+/-误差范围

这意味着我们需要确定两个数字。这些值是所需参数的估计值，以及误差范围。

在进行任何统计测试或程序之前，重要的是要确保满足所有条件。对于人口比例的置信区间，我们需要确保以下内容成立：

我们有一个简单的随机样本，大小为35 n 36，来自大量人口37我们的个人是相互独立选择的。我们的样本中至少有15个成功，15个失败。41

如果**一项不满意，那么可以稍微调整我们的样本并使用加四置信区间。在下文中，我们将假设满足了上述所有条件。

我们从人口比例的估计开始。就像我们使用样本均值来估计总体均值一样，我们使用样本比例来估计总体比例。人口比例是一个未知的参数之三。样本比例是一个统计数据。通过计算样本中成功的次数，然后除以样本中的总人数，可以找到此统计信息。

人口比例用p表示，并且是不言自明的。样本比例的符号更为复杂。我们将样本比例表示为p̂，我们将此符号读为"p-hat"因为它看起来像字母p，顶部是帽子。

这成为我们置社区科普计划信区间的**部分。p的估计值为p̂。

为了确定误差幅度的公式，我们需要考虑p̂的抽样分布。我们需要知道我们正在处理的平均值，标准差和特定分布。

p̂的抽样分布是二项分布，成功概率p和n试验。这种类型的随机变量的平均值p，标准差（p（1-p）/n）^0.5。这有两个问题。

**个问题是二项式分布可能非常棘手。因子的存在会导致一些非常大的数字。这是条件帮助我们的地方。只要满足我们的条件，我们就可以用标准正态分布来估计二项式分布。

第二个问题是p̂的标准偏差在其定义中使用p。未知的总体参数将通过使用与误差范围非常相同的参数来估计。这种循环推理是一个需要解决的问题。

解决这个难题的方法是用标准误差代替标准偏差。标准错误基于统计数据，而不是参数。使用标准误差来估计标准差。使这一策略值得的是，我们不再需要知道参数p。的值

为了使用标准错误，我们用统计量p̂替换未知参数p。结果是人口比例置信区间的以下公式：

p̂+/-z*（p̂（1-p̂）/n）^0.5。

这里z*的值由我们的置信水平C确定。对于标准正态分布，C标准正态分布的百分比恰好在z*的共同值包括90%置信度的1.645和95%置信度的1.96。

让我们看看这种方法如何与一个例子一起工作。假设我们希望以95%的置信度知道一个自称为民主的县的选民所占的百分比。我们在这个县进行了一个100人的简单随机样本。发现其中64人确定为民主者。

我们看到所有条件都得到满足。我们的人口比例估计为64/100=0.64。这是样本比例p̂的值，它是我们置信区间的中心。

误差范围由两部分组成。**部分是z*。正如我们所说，对于95%置信度，z*=1.96的值。

误差范围的另一部分由公式（p̂（1-p̂）/n）^0.5给出。我们设置p̂=0.64并计算=标准误差为（0.64（0.36）/100）^0.5=0.048。

我们将这两个数字相乘，得到0.09408的误差范围。最终结果是：

0.64+/-0.09408，

或者我们可以将其重写为54.592%至73.408%。因此我们95%的人相信民主人的真实人口比例在这些百分比的范围内。这意味着从长远来看，我们的技术和公式将在95%的时间内占据人口比例。