随机过程统计,根据观测对随机过程进行统计推断的理论与方法。把观测所获得的数据记为{xn,n=0,1,2,…}或{xt,t≥0},它是从一个随机过程抽得的样本。为了得到描述这一随机过程变化的统计规律,必须对它的分布(见概率分布)或某些特征作出推断。例如检验它是否为某种特殊的随机过程,估计其分布中的某些参数等等。这些都属于随机过程的统计问题。
历史
早在数理统计学发展的初期,人们就已对随时间推进的观测结果运用各种统计分析方法来研究,例如,根据天文资料寻找其变化的隐蔽周期。但当时的研究还只是限于相互独立观测的情形。
20世纪30年代,由于描述社会或市场上某些经济指标变化的需要,必须对不独立的观测结果{xn}进行分析。
例如,考虑如何寻找一个自回归模型 来近似地拟合数据{ x n},但仍限于讨论离散时间观测的情形。40年代以后,一方面由于无线电技术中信号检测与信号参数估计的需要,提出了许多有关连续观测 随机 过程的 统计问题。另一方面, 随机 过程理论的迅速发展,也为研究上述问题提供了手段。
1951年U.格里南德明确提出了 随机 过程的 统计推断这一课题,并指出数理 统计中的最大似然估计(见 点估计)、似然比检验(见 假设检验)等方法原则上也可用于 随机 过程的 统计推断,但一个关键问题是,要给出 随机 过程的不同概率分布之间相互绝对连续与奇异的条件,以及求出概率分布间的密度。由于 过程 统计的需要,这一问题在以后引起了相当大的重视和大量的工作,对于各类重要的 过程,如正态 过程(见 随机过程)、 独立增量过程、扩散 过程(见 马尔可夫过程)、 点过程乃至一般的半鞅(见 鞅),都先后讨论了这一问题。在分布间具有密度的条件下,就可直接沿用数理 统计的做法,这已成为 过程 统计中很重要的一方面。另外, 过程 统计也仿照数理 统计中处理 线性统计模型的方法。例如,可以假定观测结果表为非 随机变化项和一个宽平稳 过程之和,利用其二阶或四阶矩特征,可对 过程本身的均值(见 数学期望)及协方差(见 矩)作出 统计推断。由于这类 统计方法要求较宽,便于应用,所以发展迅速且应用广泛。
依赖于密度的统计方法
设x={x(t),0≤t≤T}为随机过程、{pθ,θ∈ }是 x样本空间上的可能概率分布族, θ是未知参数。对于两个概率分布 p 0、 p 1,如果 p 0概率为0的事件,其 p 1概率必为0,则称 p 1关于 p 0是绝对连续的;如果存在 p 0概率为0而 p 1概率为1的事件,则称 p 1与 p 0是相互奇异的。对 随机 过程来说,{ p θ, θ∈ }中的不同概率分布之间往往并不相互绝对连续,有时甚至是相互奇异的。因此,首先必须讨论 p θ之间的绝对连续性与奇异性问题。而后在绝对连续的情形,可以取某个 为标准,根据 测度论的拉东-尼科迪姆定理,求得其他概率分布 p θ关于 p 0的密度 (又叫做似然比)。在这个基础上,数理 统计中的最大似然估计法,似然比检验法、贝叶斯推断等,都可直接用于 随机 过程的 统计推断,而一些 大样本统计问题也可归结为 随机过程的极限定理来处理。
关于随机过程概率分布间的绝对连续性与奇异性及其密度的问题,可利用鞅收敛定理证明如下的一般结果:若随机连续的过程{x(t),0≤t≤T}在样本空间上的可能概率分布为p0与p1,{tn,n≥1}为[0,T]中的可列稠集。对x作有限次观测{x(t1),x(t2),…,x(tn)},其相应的有限维分布为p , p 。若 p 关于 p 绝对连续,则极限 按 p 0, p 1都以概率1存在,且 p 1关于 p 0绝对连续的充分必要条件是 p 1( f ∞<∞)=1,这时有 ; p 1与 p 0奇异的充分必要条件是 p 0( f ∞=0)=1,或等价地 p 1( f ∞=∞)=1。对各类具体 过程,还要用 过程本身的特征,把这一结果具体化。
对于正态过程,其分布间的绝对连续性问题的讨论开始最早。1958年J.哈耶克和J.费尔德曼独立地证明了:对具有不同协方差函数和均值函数的正态过程,其概率分布之间或者相互绝对连续,或者相互奇异,并用不同方式给出了各自成立的条件。特别,若{xn,n≥1}为相互独立的正态随机变量序列,在p0、p1下,xn的概率分布分别为 、 ,则 p 0与 p 1相互绝对连续的充分必要条件是 σ 、 σ 同时为零或同时不为零,且 这时 以后,还对许多具体的正态 过程,给出了它们的概率分布相互绝对连续时其均值函数和协方差函数所应满足的条件及其密度的泛函形式。在信号检测理论中,就是直接运用这些结果,获得检验信号有无的方法和信号参数的各种估计量的。
对于马尔可夫链(见马尔可夫过程),往往可以利用转移概率或Q矩阵直接写出其分布密度及似然函数。这时,对于转移概率、Q矩阵或概率分布中的未知参数,就可运用最大似然估计法或似然比检验进行推断。例如设{x(t),0≤t≤T}为生灭过程,x(0)=1,λ、μ分别表示其生灭强度。若以B(t)、D(t)分别表示x在[0,t]中生殖和死亡的总数,记 则观测到样本{ x( t),0≤ t≤ T}后,其似然函数为 由此容易得出 λ、 μ的最大似然估计分别为 利用 B( t)、 D( t)、 S( t)的渐近性质,还可以得出 的相合性及其渐近分布。类似的做法还可用于更一般的点 过程。
对于状态连续的马尔可夫过程,讨论得较多的是由随机微分方程 规定的扩散方程,其中 W为 布朗运动。例如,设 过程 x 1, x 2分别满足方程 i=1,2; p j表示 x j的概率分布。若 α j满足方程存在惟一解的条件,且以概率1成立 则 p 2与 p 1相互绝对连续,且 , 上式右端第一项为关于半鞅 x 1的 随机积分。利用这一结果,可以解决下列 过程的参数估计问题:若 p θ表示 的解的分布,则 。 因此, 和 为 θ的充分 统计量,而 便是 θ的最大似然估计。进而还可以推出 的相合性与渐近正态性。
关于过程概率分布间的绝对连续性问题,对独立增量过程也有较完善的讨论。70年代后,鞅论方法已用于对这一问题的讨论,且对半鞅也给出了概率分布间绝对连续的条件及密度的泛函形式。这些都为过程统计的发展开辟了道路。
不依赖于密度的统计方法 在许多实际问题的模型中,常把被观测的随机过程记为Z(t)=m(t)+x(t),其中非随机项 反映Z( t)的趋势变化或周期变化部分,αυ, θ是未知参数,均值为零的 随机 过程 x( t)往往表示观测受到的干扰和误差。在这类模型中,往往只须对Z( t)的部分 统计特征进行推断。采用的方法可以不必求出概率分布间的密度,仅须对X的二阶矩或前四阶矩附加某些要求,一般是假定 x的二阶或前四阶矩为平稳的。
对Z的统计分析常考虑下列问题:回归系数αυ的估计,均值函数中其他参数θ(例如隐蔽周期)的估计,x的统计特征(包括协方差函数、谱密度等)的估计及有限参数模型拟合等(见时间序列分析)。
过程统计从其任务来看,本质上与数理统计是一致的。但过程统计处理的不独立随机变量的统计问题远较独立随机变量的相应问题来得复杂。过程统计的各种方法及其论证,更多地用到随机过程论的许多成果。随着随机过程应用领域的扩大和理论研究的深入,各种过程统计方法也愈广泛地被采用,其理论也将日趋完善。