探索**似然估计示例
假设我们有一个来自感兴趣人群的随机样本。我们可能有一个关于人口分布方式的理论模型。但是,可能有几个人口参数,我们不知道这些参数。**似然估计是一种确定这些未知参数的方法。
**似然估计背后的基本思想是我们确定这些未知参数的值。我们这样做是为了**化相关的联合概率密度函数或概率质量函数。我们将在下面更详细地看到这一点。然后我们将计算一些**似然的例子估计。
**似然估计步骤
上述讨论可以通过以下步骤进行总结:
- 从独立随机变量X,X,…的样本开始。X来自一个公共分布,每个分布具有概率密度函数f(X;θ。θ) θ是未知参数。
- 由于我们的样本是独立的,因此通过将我们的概率相乘来找到获得我们观察到的特定样本的概率,这给了我们一个似然函数L(θ。θ) =f(x;θ。θ) f(x;θ。θ) . . .f(x;θ。θ) =∏f(x;θ,…)。θ) 。
- 接下来,我们使用微积分来找到**化似然函数L的theta值。
- 更具体地说,如果存在单个参数,我们将似然函数L相对于θ进行区分;如果存在多个参数,我们将针对每个θ参数计算L的偏导数。
- 为了继续**化过程,设置L(或偏导数)的导数等于零并求解θ。
- 然后,我们可以使用其他技术(例如二阶导数检验)来验证我们已经找到了似然函数的**值。
示例科普达
假设我们有一包种子,每个种子的发芽成功概率p。我们种植n并计算发芽的种子数量。假设每个种子发芽独立于其他种子。我们如何确定参数p的**似然估计?
我们首先注意到每个种子都是用伯努利分布建模的,***为50 p。我们让52 X 53为0或1,单个种子的概率质量函数为54 f 55(X;56 p 57)58 p 59 X 60 61(1-62 p 63)64 1-X 65。
我们的样本由n不同的X组成,每个都具有伯努利分布。发芽的种子具有X=1,未发芽的种子具有X=0。
似然函数由下式给出:
L(p)=∏px(1-p)1-x
我们看到可以用指数定律重写似然函数。
L(p)=p∑x(1-p)n-∑x
接下来我们将这个函数与p区分开来。我们假设所有X的值都是已知的,因此是常数。为了区分似然函数,我们需要使用产品规则和权力规则:
(136 p p 137>)=x x 138 p 139 p 139 140-140-1+x x 141>(1-142 p 143143)144 n 146-147 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x
我们重写了一些负指数,并有:
(p)=(1/p)∑xp∑x(1-p)n-∑x-1/(1-p )(n-∑x)p∑x(1-p)n-∑x
=[(1/p)∑x-1/(1-p)(n-∑x)]p∑x(1-p)n-∑x
现在,为了继续**化过程,我们将这个导数设置为零,并求解238 p:239
0=[(1/p)∑x-1/(1-p)(n-∑x)]p∑x(1-p)n-∑x
由于p和(1-p)是非零的,我们有
0=(1/p)∑x-1/(1-p)(n-∑x)。
将等式的两边乘以p(1-p)给出我们:
0=(1-p)∑x-p(n-∑x)。
我们扩展右侧,看到:
3110=∑x-p∑x-pn+p∑x=∑x-pn。因此∑x=pn和(1/n)∑x=p。这意味着p的**似然估计是样本均值。更具体地说,这是发芽种子的样本比例。这完全符合直觉会告诉我们的。为了确定发芽种子的比例,首先考虑来自感兴趣人群的样本。
修改步骤
对上述步骤列表进行了一些修改。例如,如上所述,通常值得花一些时间使用一些代数来简化似然函数的表达。其原因是为了使区分更容易进行。
th的另一个变化上面的步骤列表是考虑自然对数。函数L的**值将出现在与L的自然对数相同的点上。因此**化ln L等于**化函数L。
很多时候,由于L中存在指数函数,取L的自然对数将**简化我们的一些工作。
示例
我们从上面重新审视示例,看看如何使用自然对数。我们从似然函数开始:
L(p)=p∑x(1-p)n-∑x。
然后我们使用对数定律看到:
R(p)=L n L(p)=∑xlnp+(n-∑x)ln(1-p)。
我们已经看到导数更容易计算:
(p)=(1/p)∑x-1/(1-p)(n-∑x)。
现在,和以前一样,我们将此导数设置为零,并将两侧乘以p(1-p):
0=(1-p)∑x-p(n-∑x)。
我们求解p并找到与以前相同的结果。
L(p)的自然对数的使用有助于另一种方式。计算R(p)的二阶导数更容易验证我们确实在点(1/n)∑x=p处有**值。
示例
另一个例子,假设我们有一个随机样本X,X。一个随机变量的概率密度函数的形式为456 f 457(458 X 459)460-462 1 463 e 465 466-X 468/469>
似然函数由联合概率密度函数给出。这是这些密度函数中的几个函数的产物:
L(θ)=∏θ-1e-x/θ=θ-ne-∑x/θ
再次考虑似然函数的自然对数是有帮助的。区分这将需要比区分似然函数更少的工作:
R(θ)=L n L(θ)=ln[θ-ne-∑x/θ]
我们使用对数定律并获得:
R(θ)=L n L(θ)=-nlnθ+-∑x/θ
我们相对于θ进行区分,并且具有:
R'(θ)=-n/θ+∑x/θ2
将这个导数设置为零,我们看到:
0=-n/θ+∑x/θ2。
将两侧乘以θ2,结果为:
0=-nθ+∑x。
现在用代数来求解θ:
θ=(1/n)∑x。
从中我们可以看出,样本均值是使似然函数**化的值。拟合我们模型的参数θ应该只是我们所有观测值的均值。
连接
还有其他类型的估计量。另一种估计类型称为无偏估计量。对于这种类型,我们必须计算统计量的期望值并确定它是否与相应的参数匹配。