统计的稳健性

在统计学中,术语鲁棒性或鲁棒性是指根据研究希望实现的统计分析的特定条件,统计模型,测试和程序的强度。鉴于满足这些研究条件,可以通过使用数学证明来验证模型是正确的。

许多模型基于处理真实世界数据时不存在的理想情况,因此,即使条件不完全满足,模型也可以提供正确的结果。

因此,鲁棒统计数据是从广泛的概率分布中提取数据时产生良好性能的任何统计数据,这些概率分布在很大程度上不受异常值或与给定数据集中模型假设的微小偏差的影响。换句话说,强大的统计数据可以抵抗结果中的错误。

一种观察常用稳健统计程序的方法,只需要看看t程序,它使用假设检验来确定最准确的统计预测。

观察T程序

对于鲁棒性的一个例子,我们将考虑t-过程,其中包括具有未知群体标准偏差的群体平均值的置信区间以及关于群体平均值的假设检验。

t-过程的使用假定如下:

  • 我们正在使用的数据集是人口的简单随机样本。
  • 我们从中抽样的乳房健康小知识人口是正态分布的。

在现实生活中的例子中,统计学家很少有正态分布的人口,所以问题变成了“我们的t-程序有多强大?”

一般来说,我们有一个简单的随机样本的条件比我们从nor采样的条件更重要总体分布;其原因是中心极限定理确保了近似正态的抽样分布-样本量越大,样本均值的抽样分布越接近正态。

T过程如何充当鲁棒统计量

因此,t-程序的鲁棒性取决于样本量和样本分布。对此的考虑包括:

  • 如果样本量很大,这意味着我们有40个或更多的观测值,那么即使分布偏斜,也可以使用t-程序。
  • 如果样本量在15到40之间,那么我们可以对任何形状分布使用t-程序,除非存在异常值或高度偏斜。
  • 如果样本大小小于15,那么对于没有异常值,单个峰值且几乎对称的数据,我们可以使用t-过程。

在大多数情况下,通过数学统计学的技术工作已经建立了稳健性,幸运的是,我们不一定需要做这些先进的数学计算才能正确利用它们;我们只需要了解整体准则对于稳健性我们的具体统计方法。

T程序起到稳健统计的作用,因为它们通常通过将样本大小考虑为应用程序的基础来为这些模型产生良好的性能。

教育_1