概率论历史上第一个
极限定理属于
伯努利,后人称之为“大数定律”。概率论中讨论
随机变量序列的
算术平均值向
随机变量各数学期望的
算术平均值收敛的定律。
发展历史
我们知道,大数定律研究的是
随机现象统计规律性的一类定理,当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近。就像抛硬币一样,当我们不断地抛,抛个上千次,甚至上万次,我们会发现,正面或者反面向上的次数都会接近一半。除了抛硬币,现实中还有许许多多这样的例子,像掷骰子,最著名的实验就是蒲丰投针实验。这些实验都像我们传达了一个共同的信息,那就是大量重复实验最终的结果都会比较稳定。那稳定性到底是什么?怎样去用数学语言把它表达出来?这其中会不会有某种规律性?是必然的还是偶然的?
这一系列问题其实就是大数定律要研究的问题。很早的时候,人们其实就发现了这一规律性现象,也有不少的数学家对这一现象进行了研究,这其中就包括伯努利(后来人们为了纪念他,都认为他是第一个研究这一问题的人,其实在他之前也早有数学家研究过)。伯努利在1713年提出了一个极限定理,当时这个定理还没有名称,后来人们称这个定理为
伯努利大数定律。因此概率论历史上第一个有关大数定律的极限定理是属于伯努利的,它是概率论和
数理统计学的基本定律,属于弱大数定律的范畴。
当大量重复某一实验时,最后的
频率无限接近事件概率。而伯努利成功地通过数学语言将现实生活中这种现象表达出来,赋予其确切的数学含义。他让人们对于这一类问题有了新的认识,有了更深刻的理解,为后来的人们研究大数定律问题指明了方向,起到了引领作用,其为大数定律的发展奠定了基础。除了伯努利之外,还有许许多多的数学家为大数定律的发展做出了重要的贡献,有的甚至花了毕生的心血,像德莫佛—拉普拉斯,李雅普诺夫,林德伯格,费勒,切比雪夫,辛钦等等。这些人对于大数定律乃至概率论的进步所起的作用都是不可估量的。
1733年,德莫佛—拉普拉斯经过推理证明,得出了
二项分布的极限分布是
正态分布的结论,后来他又在原来的基础上做了改进,证明了不止二项分布满足这个条件,其他任何分布都是可以的,为中心极限定理的发展做出了伟大的贡献。在这之后大数定律的发展出现了停滞。直到20世纪,李雅普诺夫又在
拉普拉斯定理的基础上做了自己的创新,他得出了特征函数法,将大数定律的研究延伸到函数层面,这对中心极限定理的发展有着重要的意义。到1920年,数学家们开始探讨中心极限定理在什么条件下普遍成立,这才有了后来发表的
林德伯格条件和费勒条件,这些成果对中心极限定理的发展都功不可没。
经过几百年的发展,大数定律体系已经很完善了,也出现了更多更广泛的大数定律,例如切比雪夫大数定律,
辛钦大数定律,
泊松大数定律,马尔科夫大数定律等等。正是这些数学家们的不断研究,大数定律才得以如此迅速发展,才得以完善。
定理定义
定义
大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的
定律。但是注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的
定理,它是一种自然规律因而通常不叫定理而是大数“
定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理,如伯努利大数定理。
重要定律
大数定律有若干个表现形式。这里仅介绍
高等数学概率论要求的常用的三个重要定律:
设 ,....是一列相互独立的随机变量(或者两两不相关),他们分别存在期望 和方差 。若存在常数C使得:
则对任意小的正数 ε,满足公式一:
将该公式应用于抽样调查,就会有如下结论:随着
样本容量n的增加,
样本平均数将接近于
总体平均数。从而为统计推断中依据
样本平均数估计总体平均数提供了理论依据。
特别需要注意的是,
切比雪夫大数定理并未要求 同分布,相较于后面介绍的伯努利大数定律和
辛钦大数定律更具一般性。
设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的
概率为p,则对任意正数ε,有公式二:
该定律是
切比雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。
设 为独立同分布的随机变量序列,若 的
数学期望存在,,则服从大数定律:
即对任意的ε>0,有公式三:
四种证法
对于一般人来说,大数定律的非严格表述是这样的: 是独立同分布随机变量序列,期望为 ,则 收敛到u。
如果说“弱大数定律”,上述收敛是指
依概率收敛(in probability),如果说“
强大数定律”,上述收敛是指几乎必然收敛(almost surely/with probability one)。
大数定律通俗一点来讲,就是样本数量很大的时候,
样本均值和真实均值充分接近。这一结论与中心极限定理一起,成为现代
概率论、统计学、理论科学和社会科学的基石。(有趣的是,虽然大数定律的表述和证明都依赖现代数学知识,但其结论最早出现在微积分出现之前。而且在生活中,即使没有微积分的知识也可以应用。例如,没有学过微积分的学生也可以轻松利用excel或计算器计算样本均值等统计量,从而应用于社会科学。)
最早的大数定律的表述可以追溯到公元1500年左右的意大利数学家
Cardano。1713年,著名数学家James (Jacob) Bernouli正式提出并证明了最初的大数定律。不过当时现代概率论还没有建立起来,
测度论、
实分析的工具还没有出现,因此当时的大数定律是以“独立事件的概率”作为对象的。后来,历代数学家如Poisson(“大数定律”的名字来自于他)、
Chebyshev、Markov、Khinchin(“强大数定律”的名字来自于他)、Borel、Cantelli等都对大数定律的发展做出了贡献。直到1930年,现代概率论奠基人、数学大师Kolmogorov才真正证明了最后的强大数定律。
下面均假设 是独立同分布
随机变量序列,数学期望为u。独立同分布随机变量和的大数定律常有的表现形式有以下几种。
初等概率
(1) 带
方差的弱大数定律:若 小于无穷,则 依概率收敛到0。
证明方法:Chebyshev不等式即可得到。这个证明是Chebyshev给出的。
(2) 带均值的弱大数定律:若u存在,则 依概率收敛到0。
证明方法:用
Taylor展开特征函数,证明其收敛到
常数,得到依分布收敛,然后再用依分布收敛到常数等价于依概率收敛。
现代概率
(3) 精确弱大数定律:若xP(|X|>x) 当x趋于无穷时收敛到0,则 依概率收敛到0,其中 。(在这个定理里,不需要u存在。)
证明方法:需要用到截断随机变量 . 然后要用的三角阵列的依概率收敛定理和Fubini定理分析积分变换。
(4) 带4阶矩的强大数定律:若 小于无穷,则 几乎必然收敛到0.
证明方法:与(1)类似,先用Chebyshev不等式。然后因为4阶矩的存在,得到 对任意常数t的收敛速度足够快,满足Borel-Cantelli的要求,用Borel-Cantelli引理得到大数定律。
(5) 带
方差的强大数定律:若 小于无穷,则 几乎必然收敛到0.
证明方法:用Kolgoromov三级数定理和Kronecker定理。
(6) 精确强大数定律:若u存在,则 几乎必然收敛到0.
证明方法:这个大数定律的证明确实有几种不同的方法。最早的证明是由数学大师Kolmogorov给出的。Durrett (2010)的书上用的是Etemadi (1981)的方法,需要截断X,用到现代
概率论的知识如Borel-Cantelli引理、Kolmogorov三级数定理、Fubini定理等。(感谢读者指出,Durrett的书在倒向鞅一章中给出了大数定律的倒向鞅方法证明,只需要用到倒向鞅的知识和Hewitt-Savage 0-1律,不过这也是现代概率论的知识。)
此外,还有很多不同的大数定律,不同分布的,不独立的序列等。定律也不一定是关于
随机变量的,也可以是关于随机函数的,甚至随机集合的等等。以数学家命名的也有Khinchin大数定律(不独立序列的强大数定律)、Chebyshev大数定律(弱大数定律(1))、Poisson大数定律(不同概率的随机事件序列的大数定律)、Bernoulli大数定律(随机事件的大数定律)、Kolmogorov大数定律(强大数定律(6))等等……
以上(1-6)是常见的
独立同分布序列的大数定律。其中,(3)和(6)是最严格也是最精妙的结果,证明所涉及的高等概率论知识也最多。它们成立的条件不仅是充分条件,也是必要条件,因此它们算是完结了大数定律的发展。大数定律的发展符合数学的一般规律:想证明某一结论,条件越弱(弱大数定律:2阶矩条件->1阶矩条件->没矩条件;强大数定律:4阶矩条件→2阶矩条件→1阶矩条件),证明也就变得越难。
虽然只有(3)和(6)是最精确的结果,但是必须认识到,数学的发展是一个循序渐进的过程,如果没有前面那些更强条件下的定理,也无法得到最后的大数定律。
从最开始的自然界观察到大数定律的存在,到最后证明最终形式,历时数百年,现代
概率论也在这个过程中建立起来。此外,虽然(3)和(6)比前面的(1)和(5)强很多,但是(1)和(5)的条件仅仅是2阶矩(或方差)的存在,因此他们在几百年间早就被广泛使用,对于一般的社会科学问题、统计问题等已经足足够用了。
。
举例说明
例如,在重复投掷一枚硬币的随机试验中,观测投掷了n次硬币中出现正面的次数。不同的n次试验,出现正面的频率(出现正面次数与n之比)可能不同,但当试验的次数n越来越大时,出现正面的频率将大体上逐渐接近于1/2。又如称量某一物体的重量,假如衡器不存在
系统偏差,由于衡器的精度等各种因素的影响,对同一物体重复称量多次,可能得到多个不同的重量数值,但它们的
算术平均值一般来说将随称量次数的增加而逐渐接近于物体的真实重量。
几乎处处收敛与依概率收敛不同。生活例子:开始上课了,慢慢地大家都安静下来,这是几乎处处收敛。绝大多数同学都安静下来,但每一个人都在不同的时间不安静,这是依概率收敛。
还有大数定律在保险业应用也十分广泛。大数定律又称大数法则。人们在长期的实践中发现,在随机现象的大量重复中往往出现几乎必然的规律,即大数法则。此法则的意义是:风险单位数量愈多,实际损失的结果会愈接近从无限单位数量得出的预期损失可能的结果。据此,保险人就可以比较精确的预测危险,合理的厘定保险费率,使在保险期限内收取的保险费和损失赔偿及其它费用开支相平衡。大数法则是近代保险业赖以建立的数理基础。保险公司正是利用在个别情形下存在的不确定性将在大数中消失的这种规则性,来分析承保标的发生损失的
相对稳定性。按照大数法则,保险公司承保的每类标的数目必须足够大,否则,缺少一定的数量基础,就不能产生所需要的数量规律。但是,任何一家保险公司都有它的局限性,即承保的具有同一风险性质的单位是有限的,这就需要通过再保险来扩大风险单位及风险分散面。