二项分布的正态近似

已知具有二项分布的随机变量是离散的。这意味着可以在二项分布中发生可数目的结果,这些结果之间存在分离。例如,二项变量可以取值为3或4,但不能取3到4之间的数字。

利用二项式分布的离散特性,连续随机变量可用于近似二项式分布有点令人惊讶。对于许多二项式分布,我们可以使用正态分布来近似二项式概率。

当查看n投币机并让X为头数时,可以看到这一点。在这种情况下,我们有一个成功概率为p=0.5的二项式分布。随着我们增加投掷次数,我们看到概率直方图与正态分布越来越相似。

正常近似的陈述

每个正态分布完全由两个实数定义。这些数字是衡量分布中心的平均值,以及衡量分布分布范围的标准差。对于给定的二项式情况,我们需要能够确定使用哪个正态分布。

正确正态分布的选择取决于二项式设置中的试验次数n,以及每个试验的恒定成功概率p。我们二项变量的正态近似值是np的平均值和(np(1-p0.5的标准偏差。

例如,假设我们猜测多项选择测验的100个问题中的每一个,其中每个问题在四个选择中都有一个正确的答案。正确答案的数量X是一个二项式随机变量,n=100 andp=0.25。因此,该随机变量的平均值为100(0.25)=25,标准偏差为(100(0.25)(0.75))0.5=4.33。均值25和标准差4.33的正态分布将用于近似该二项式分布。

近似值何时合适?

通过使用一些数学,可以证明我们需要使用二项分布的正态近似的一些条件。观测值n必须足够大,并且p的值使得npn(1-p)大于或等于10。这是一个经验法则,以统计实践为指导。可以始终使用正态近似,但是如果不满足这些条件,则近似可能不是近似的那么好。

例如,如果n=100和p=0.25,则我们使用正态近似来证明这一点。这是因为n p=25和n(1-p)=75。由于这两个数字都大于10,适当的正态分布将在估计二项式概率方面做得相当好。

为什么使用近似值?

通过使用非常直接的公式来计算二项式概率以找到二项式系数。不幸的是,由于公式中的因子,使用二项式公式很容易遇到计算困难。正态近似允许我们通过与熟悉的朋友(标准正态分布的值表)一起工作来绕过任何这些问题。

人民币的小知识

很多时候,确定二项式随机变量落在值范围内的概率是很繁琐的计算。这是因为要找到一个二项变量96 X 97大于3且小于10的概率,我们需要找到98 X 99的概率等于4、5、6、7、8和9,然后将所有这些概率加在一起。如果可以使用正态近似,我们将需要确定对应于3和10的z分数,然后使用z分数概率表进行标准正态分布。