估计误差,是指数据处理过程中对误差的估计,有多种统计表示方式。在
统计学中,估计误差是此估计量的
期望值与估计参数的
真值之差。误差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计中,“误差”是一个函数的客观陈述。
定义
设我们有一个参数为实数θ的概率模型,产生观测数据的概率分布 ,而统计量 是基于任何观测数据 下θ的估计量。也就是说,我们假定我们的数据符合某种未知分布 (其中θ是一个固定常数,而且是该分布的一部分,但具体值未知),于是我们构造估计量 ,该估计量将观测数据与我们希望的接近θ的值对应起来。因此这个估量的(相对于参数θ的)误差定义为
其中 表示分布 的
期望值,即对所有可能的观测值 取平均。由于θ对于条件分布 是可测的,就有了第二个等号。
对于参数θ的所有值的误差都等于零的估计量称为
无偏估计量。
在一次关于估计量性质的模拟实验中,估计量的偏差可以用平均有符号离差来评估。
误差的分类
根据误差的性质和产生的原因,可将误差分为
系统误差、随机误差、过失误差三类。
(1)系统误差
系统误差是由某些固定不便的因素引起的,这些因素影响的结果永远朝一个方向偏移,其大小及符号在同一组实验测量中完全相同。当实验条件一经确定,系统误差就是一个客观上的恒定值,多次测量的平均值也不能减弱它的影响。误差随实验条件的改变按一定规律变化。产生系统误差的原因有以下几方面:
①测量仪器方面的因素,如仪器设计上的缺点,刻度不准,仪表未进行校正或标准表本身存在偏差,安装不正确等;
②环境因素,如外界温度、湿度、压力等引起的误差;
③测量方法因素,如近似的测量方法或近似的计算公式等引起的误差;
④测量人员的习惯和偏向或动态测量时的滞后现象等,如读数偏高或偏低所引起的误差。针对以上具体情况分别改进仪器和实验装置以及提高测试技能予以解决。
(2)随机误差
它是由某些不易控制的因素造成的。
在相同条件下做多次测量,其误差数值是不确定的,时大时小,时正时负,没有确定的规律,这类误差称为随机误差或偶然误差。
这类误差产生原因不明,因而无法控制和补偿。
若对某一量值进行足够多次的
等精度测量,就会发现随机误差服从统计规律,误差的大小或正负的出现完全由概率决定的。
随着测量次数的增加,随机误差的算术平均值趋近于零,所以多次测量结果的
算术平均值将更接近于真值。
(3)过失误差
过失误差是一种与实际事实明显不符的误差,误差值可能很大,且无一定的规律。
它主要是由于实验人员粗心大意、操作不当造成的,如读错数据,操作失误等。在测量或实验时,只要认真负责是可以避免这类误差的。存在过失误差的观测值在实验数据整理时应该剔除。
(4)精密度和精确度
测量的质量和水平可以用误差概念来描述,也可以用精确度来描述。为了指明误差来源和性质,可分为精密度精和精确度。
精密度:在测量中所测得的数值重现性的程度。它可以反映随机误差的影响程度,随机误差小,则精密度高。
精确度:测量值与真值之间的符合程度。它反映了测量中所有系统误差和随机误差的综合。
精密度和精确度分为A、B、C三档
A的系统误差大,随机误差大,精密度、精确度都不好;
B说明系统误差大,随机误差小,精密度很好,但精确度不好;
C系统误差和随机误差都很小,精密度和精确度都很好。
(5)实验数据的记数法和有效数字
实验测量中所使用的仪器仪表只能达到一定的精度,因此测量或运算的结果不可能也不应该超越仪器仪表所允许的精度范围。
估计误差量化
在
统计学中,估计量是基于观测数据计算一个已知量的估计值的法则估计量用来估计未知总体的参数。对于给定的参数,可以有许多不同的估计量。我们通过一些选择标准从它们中选出较好的估计量,但是有时候很难说选择这一个估计量比另外一个好。
其中是待估参数。注意误差e不仅取决于估计量(估计公式或过程),还取决于样本。
估计量的均方误差被定义为误差的平方的期望值,即为:
它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比:假设“参数”是靶子的靶心,“估计量”是向靶子射箭的过程,而每一支箭则是“估计值”(样本)。那么,高均方误差就意味着每一支箭离靶心的平均距离较大,低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚,也可能不。比如说,即使所有箭支都射中了同一个点,同时却严重偏离了靶子,均方误差相对来说依然很大。然而要注意的是,如果均方误差相对较小,箭支则更有可能集聚(而不是离散)。
举例
例1.样本方差:
随机变量的
样本方差从两方面说明了估计量偏差:首先,自然估计量(naive estimator)是有偏的,可以通过比例因子校正;其次,
无偏估计量的均方差(MSE)不是最优的,可以用一个不同的比例因子来最小化,得到一个比无偏估计量的MSE更小的有偏估计量。具体地说,自然估计量就是将离差平方和加起来然后除以n,是有偏的。不过除以n−1 会得到一个无偏估计量。相反,MSE可以通过除以另一个数来最小化(取决于分布),但这会得到一个有偏估计量。这个数总会比n−1 大,所以这就叫做收缩估计量,因为它把无偏估计量向零“收缩”;对于正态分布,最佳值为n+1。
设X1, ...,Xn是期望为μ、方差为σ的
独立同分布(i.i.d.)随机变量。如果
样本均值与未修正
样本方差定义为
则是的一个有偏估计量,
因为
换句话说,未修正的样本方差的期望值不等于总体方差σ,除非乘以归一化因子。而样本均值是总体均值μ的
无偏估计量。
是有偏的原因源于样本均值是μ的普通最小二乘(OLS)估计量这个事实:是令尽可能小的数。也就是说,当任何其他数代入这个求和中时,这个和只会增加。尤其是,在选取就会得出,
于是,
注意到,通常的样本方差定义为
方差的有偏(未修正)与无偏估计之比称为贝塞尔修正。