引导示例

Bootstrapping是一种强大的统计技术。当我们正在使用的样本量很小时,它特别有用。在通常情况下,假设正态分布或t分布不能处理小于40的样本量。Bootstrap技术适用于少于40个元素的样本。原因是自举涉及重采样。这些技术对我们数据的分布没有任何假设。

随着计算资源变得更加容易获得,引导变得越来越流行。这是因为为了使自举实用,必须使用计算机。在下面的引导示例中,我们将看到它是如何工作的。

示例

我们从一个我们一无所知的人口统计样本开始。我们的目标是关于样本平均值的90%置信区间。尽管用于确定置信区间的其他统计技术假设我们知道总体的均值或标准差,但自举不需要样本以外的任何东西。

就我们的例子而言,我们将假设样本是1,2,4,4,10。

引导程序样本

现在,我们从样本中重新采样以形成所谓的引导样本。就像我们的原始样本一样,每个引导程序样本的大小都为5。由于我们是随机选择然后替换每个值,因此引导程序样本可能与原始样本和彼此不同。

例如,我们将在现实世界中遇到的情况,我们会重复采样数百次甚至数千次。在下面的内容中,我们将看到20个引导程序样本的示例趣味小知识

    34,2,1,10,4,2,35,36,4,10,10,2,4,37,38,1,4,1,4,39,40,4,1,1,4,10,41,42,4,4,1,4,4,4,4,2,43,44,4,10,10,10,4
  • 2,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,2,1,1,4
  • 1,10,2,10,10,10,10,10,10,10,10,10,10,4,4,4,4,4,4,4,4,4,4,4
  • 4,4,4,2,4
  • 10,4,1,4,4
  • 4,2,1,1,2
  • 10,2,2,1,1

Mean

由于我们使用引导程序来计算总体均值的置信区间,因此我们现在计算每个引导程序样本的均值。这些装置按升序排列为:2,2.4,2.6,2.6,2.8,3,3,3.2,3.4,3.6,3.8,4,4,4.2,4.6,5.2,6,6,6.6,7.6。

教育资源网_1

置信区间

我们现在从引导程序样本列表中获得一个置信区间。由于我们需要90%的置信区间,因此我们使用第95和第5个百分位数作为区间的终点。原因是我们将****-90%=10%分成两半,以便我们将所有自举样本均值的中间90%。

对于上面的例子,我们的置信区间为2.4到6.6。