置信区间
数学、统计学术语
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。
理论描述
置信区间是一种常用的区间估计方法,所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间。对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζα/2σ , μ+Ζα/2σ) ,其中α为非置信水平在正态分布内的覆盖面积 ,Ζα/2即为对应的标准分数
对于一组给定的数据,定义 为观测对象,W为所有可能的观测结果,X为实际上的观测值,那么X实际上是一个定义在 上,值域在W 上的随机变量。这时,置信区间的定义是一对函数u(.) 以及v(.) ,也就是说,对于某个观测值X=,其置信区间为 。实际上,若真实值为w,那么置信水平就是概率c:
其中U=u(X)和 V=v(X)都是统计量(即可观测的随机变量),而置信区间因此也是一个随机区间:(U,V)。
计算公式
置信区间的计算公式取决于所用到的统计量。置信区间是在预先确定好的显著性水平下计算出来的,显著性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度则是0.95或95%,后一种表示方式更为常用。置信区间的常用计算方法如下:
Pr(c1<=μ<=c2)=1-α
其中:α是显著性水平(例:0.05或0.10);
Pr表示概率,是单词probability的缩写;
100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);
表达方式:interval(c1,c2) - 置信区间。
求解步骤
第一步:求一个样本的均值
第二步:计算出抽样误差。经过实践,通常认为调查:100个样本的抽样误差为±10%;500个样本的抽样误差为±5%;1200个样本时的抽样误差为±3%。
第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。
主要性质
较窄的置信区间比较宽的置信区间能提供更多的有关总体参数的信息。举例说明如下:
假设全班考试的平均分数为65分,则有如下表格中的理解:
相关联系
置信区间与置信水平、样本量等因素均有关系,其中样本量对置信区间的影响为:在置信水平固定的情况下,样本量越多,置信区间越窄。其次,在样本量相同的情况下,置信水平越高,置信区间越宽。实例分析如下:
(1)置信区间与样本量关系分析
由上表得出:
1、在置信水平相同的情况下,样本量越多,置信区间越窄。
2、置信区间变窄的速度不像样本量增加的速度那么快,也就是说并不是样本量增加一倍,置信区间也变窄一半(实践证明,样本量要增加4倍,置信区间才能变窄一半),所以当样本量达到一个量时(通常是1,200),就不再增加样本了。故:置信区间=点估计 ±(关键值 × 点估计的标准差)。在其他因素不变的情况下,样本量越多(大),置信区间越窄(小)。
(2)置信区间与置信水平关系分析
美国做了一项对总统工作满意度的调查。在调查抽取的1,200人中,有60%的人赞扬了总统的工作,抽样误差为±3%,置信水平为95%;如果将抽样误差减少为±2.3%,置信水平降到为90%。则两组数字的情况比较如下:
由上表得出:
在样本量相同的情况下(都是1,200人),置信水平越高(95%),置信区间越宽。
与可信区间的区别与联系
置信区间和可信区间是同类型不同本质的两个概念,置信区间可以通过构造枢轴量得到,可信区间可以通过参数后验分布得到。在实际应用中二者很容易混淆,一定要注意的是:置信区间是随机区间,在大量重复使用时才有意义;可信区间是抽样得到样本观测值后对未知参数区间估计的“重新认识”(先验分布可以看作是对未知参数的初步认识)。
参考资料
最新修订时间:2024-10-11 21:13
目录
概述
理论描述
参考资料