什么是统计引导?

Bootstrapping是一种统计技术,属于更广泛的重采样标题。该技术涉及一个相对简单的过程,但重复了很多次,严重依赖于计算机计算。Bootstrapping提供了一种除置信区间之外的方法来估计总体参数。Bootstrapping似乎很像魔术。继续阅读以了解它如何获得有趣的名称。

引导的解释

推理统计的一个目标是确定人口参数的值。直接测量这一点通常太昂贵甚至不可能。所以我们使用统计抽样。我们对人口进行抽样,测量此样本的统计数据,然后使用此统计数据来说明人口的相应参数。

例如,在巧克力工厂,我们可能想保证糖果棒具有特定的平均重量。称量生产的每一个糖果棒都是不可行的,所以我们使用抽样技术随机选择100个糖果棒。我们计算这100个糖果酒吧的平均值,并说人口平均值落在我们样本平均值的误差范围内。

假设几个月后我们想更准确地知道-或者更少的误差范围-我们在采样生产线当天的平均糖果重量是多少。我们不能使用今天的糖果酒吧,因为进入图片的变量太多(不同批次的牛奶,糖和可可豆,不同的太空的小知识大气条件,不同的员工在线等)。从我们好奇的那一天起,我们所拥有的就是100个重量。如果没有时间机器回到那一天,看起来最初的误差幅度是我们所能希望的**的。

幸运的是,我们可以使用自举技术。在这种情况下,我们用repl随机抽样从100个已知重量开始。然后我们称之为引导程序样本。由于我们允许更换,因此此引导程序样本很可能与我们的初始样本不同。某些数据点可能会重复,而自举样本中可能会省略最初100个数据点中的其他数据点。在计算机的帮助下,可以在相对较短的时间内构建数千个引导程序样本。

示例

如上所述,要真正使用引导技术,我们需要使用计算机。以下数值示例将有助于演示该过程的工作原理。如果我们从样本2,4,5,6,6开始,那么以下所有都是可能的引导样本:

    34,2,5,5,6,6,35,36,4,5,6,6,37,38,2,2,4,5,5,39,40,2,2,2,4,6,41,42,2,2,2,2,2,43,44,4,6,6,6,45

技术史

Bootstrap技术在统计领域相对较新。**次使用是由Bradley Efron在1979年的一篇论文中发表的。随着计算能力的提高和成本的降低,自举技术变得越来越普遍。

为什么名称引导?

“bootstrapping”这个名字来自“用他的bootstraps抬起自己”这个词。这是指一种傲慢而不可能的事情。尽可能努力地尝试,你不能通过拖拉靴子上的皮革片来抬起自己。

有一些数学理论证明自举技术是合理的。但是,使用自举确实感觉你正在做不可能的事情。尽管似乎无法通过一次又一次地重复使用相同的样本来改进总体统计的估计,但实际上,引导可以做到这一点。

教育_1