高斯过程
概率论和数理统计中的随机过程
高斯过程(Gaussian Process, GP)是概率论数理统计随机过程(stochastic process)的一种,是一系列服从正态分布随机变量(random variable)在一指数集(index set)内的组合。
定义
高斯过程指的是一组随机变量的集合,这个集合里面的任意有限个随机变量都服从联合正态分布。具体地,对概率空间 内由指数集 索引的随机变量成员(indexed family),即随机过程 ,当 的子集 对任意 都是高斯随机向量时, 被称为高斯过程,且其分布,即布雷尔测度(Borel measure) ,被称为高斯测度(Gaussian measure)。
该定义有如下引理:对高斯随机向量 ,若有指数集 ,则随机过程 是高斯过程;反之,若随机过程 是高斯过程,则 是高斯随机向量。
对指数集 指定的高斯过程 ,其数学期望协方差函数(covariance function)有如下定义:
对高斯过程的定义中没有包含指数集的先验假设,这意为着指数集可以有任意的拓扑结构,高斯过程通常考虑其指数集拥有无穷个元素的情形,常见形式包括时间序列(timeseries)和空间位置。在指数集对应空间关系时,高斯过程也被称为高斯随机场(Gaussian random field)。高斯过程在文献中常记为 。
理论
平稳高斯过程(stationary Gaussian process)
作为随机过程之一,高斯过程的重要成员是平稳高斯过程,其定义如下:
设高斯过程 的指数集 是一个阿贝尔群(abelian group)且对任意 ,随机向量 和 具有相同的对应关系,则 被称为平稳高斯过程。
上述定义的另一等价表述为:若高斯过程 的数学期望和协方差在指数集内平移不变(transformation invariant),则 为平稳高斯过程。该表述的公式形式为:
平稳高斯过程的均值和变化幅度稳定,为高斯过程的建模带来了便利,因此在高斯过程回归和分类问题中被广泛使用。
核函数(kernel function)
主词条:核函数
高斯过程的性质与其协方差函数有密切联系,在构造高斯过程时,一些特定形式的协方差函数被称为核函数。核函数的选择要求满足Mercer定理(Mercer's theorem),即核函数在样本空间内的任意格拉姆矩阵(Gram matrix)为半正定矩阵(semi-positive definite)。这里对高斯过程常见的核函数类型进行总结。
1. 平稳高斯过程的核函数
构建平稳高斯过程时,常用的核函数有:
式中,马顿核中的为修正贝塞尔函数(modified Bessel function),为表征核函数的特征长度尺度(characteristic length-scale)的超参数。上述核函数间存在联系,当时,马顿核和RQ核等价于以为特征尺度的RBF核,指数函数核是马顿核在的特殊形式。
核函数的两个重要度量是单调性和平滑性(smoothness)。表中的核函数均是单调递减函数,因此样本间的相关性与样本间距离成反比,此时特征长度尺度越小,样本间的相关性越高。随机过程的平滑性由均方导数(mean squared derivative)描述,表中RBF核对应无限均方可导的平滑高斯过程;马顿核与RQ核的均方可导性与其超参数有关,例如在取1.5和2.5时,马顿核是1阶和2阶均方可导的;指数函数核对应的高斯过程是奥恩斯坦-乌伦贝克过程(Ornstein-Uhlenbeck Process, OU),OU过程是一个具有强马尔可夫性且均方不可导的随机过程(参见特例部分)。
2. 各项同性(isotropy)与各向异性(anisotropy)核函数
若高斯过程为高斯随机场,对应的指数集表示空间时,其核函数的选择有各向同性与各向异性之分。各向同性表示样本的协方差与其向量的方向无关,即仅与距离有关,各向异性反之。
对先前表中的平稳核函数,若定义,则其为各向同性核函数,若定义则其为各向异性核函数,是表征各向异性的矩阵函数,其对角元素表示不同维度下所取的尺度。举例说明,对RBF核,其一般形式可表示为:
式中的3个选择分别对应各向同性、几何各向异性(geometric anisotropy)和完全各向异性的RBF核。
3. 非平稳核函数
周期核(periodic kernel)与多项式函数核(polynominal kernel)是常见的非平稳核函数。对前者,平稳核函数可以用于构建周期核:。式中表示该核函数具有的周期,例如由RBF核得到的周期核的形式为:。对后者,多项式函数核也被称为内积核(dot product kernel),当多项式函数核为1阶时,多项式函数核退化为线性核。多项式函数核是非平稳的,但其对以原点为中心的旋转变换保持不变。高阶内积核函数的取值在时呈非线性增长。内积核函数通常被应用于高维的高斯过程分类问题。
性质
由高斯过程的定义可知,高斯过程的任意有限指数集下的随机变量都服从联合正态分布,因此由正态分布的可加性,高斯过程(和其子集)的任意线性组合也是高斯过程。此外,由联合正态分布性质可知,若高斯过程有互不相关的随机变量 则 相互独立
高斯过程由其数学期望和核函数完全定义,核函数赋予高斯过程平滑性(smoothness)、各向同性(isotropy)、周期性和平稳性。平稳高斯过程的数学期望是一常数,因此由核函数完全定义。。
高斯过程具有边缘分布性质(marginalization property),若高斯过程有服从联合正态分布的随机向量 ,则其该向量中的随机变量,且随机变量间有条件分布:
高斯过程的边缘分布性质意味着由大的随机变量集得到的结果不会对小的随机变量造成影响。对有限个随机变量的高斯过程,只要协方差函数定义了协方差矩阵的所有元素,则该性质依然成立。
特例
维纳过程(Wiener process)
主词条:维纳过程
维纳过程也被称为布朗运动(Brownian Motion),是一个 、数学期望为0且协方差函数 的高斯过程。维纳过程是非平稳的,且其差值 服从相互独立正态分布,具有强马尔可夫性,因此维纳过程是一个高斯-马尔可夫过程(Gauss-Markov process)。
非整数布朗运动(Fractional Brownian Motion)
非整数布朗运动是一类特殊的高斯过程。非整数布朗运动有 、数学期望为0和如下形式的协方差函数:
在时间序列中,上式的 被称为赫斯特指数(Hurst exponent),可以度量非整数布朗运动的记忆性。当其大于0.5时,非整数布朗运动的差值有正相关;当其小于0.5时有负相关,当其等于0.5时,非整数布朗运动没有记忆性,等价于一个维纳过程。
奥恩斯坦-乌伦贝克过程(Ornstein-Uhlenbeck Process, OU)
OU过程是一个平稳的高斯-马尔可夫过程,其数学期望为0且以指数函数为核函数。OU过程与维纳过程存在联系,是随机微分方程: 的解。
布朗桥(Brownian bridge)
布朗桥是一个平稳高斯过程,布朗桥有 ,数学期望为0,协方差函数为 。在连续时间域 上,布朗桥与维纳过程有关:
推广
高斯过程回归(Gaussian Process Regression, GPR)
主词条:高斯过程回归
GPR是将回归模型所对应的函数空间(functional space)视为高斯过程:从而通过学习样本估计回归模型参数的监督学习过程。作为一般性介绍,GPR可分为3个部分:
1. 构建高斯过程先验:高斯过程由其数学期望和协方差函数完全决定,常见的选择是平稳高斯过程,即数学期望为一常数,协方差函数取平稳高斯过程可用的核函数,使用最多的核函数是RBF核。
2. 求解超参数:在给定学习样本后GPR由贝叶斯定理(Bayes' theorem)求解超参数后验:式中为超参数的似然,对正态似然的情形,GPR通常使用极大似然估计(Maximum Likelihood Estimation, MLE)按非线性优化方法求解超参数;对非正态似然的情形,可使用解析近似(analytical approximation)和蒙特卡罗方法(Monte Carlo method)。
3. 对测试样本进行预测:对测试样本,使用0均值高斯过程先验的GPR可给出回归结果的后验。在正态似然的情形下,GPR的预测具有如下解析形式:
式中的核矩阵表示如下:
作为具有全贝叶斯特性(full Bayesian)的非参数模型,GPR可提供预测结果的后验,且在似然服从正态分布时,该后验具有解析形式,因此其是一个具有泛用性和可解析性的概率模型。此外,在核函数和指数集满足特定条件时,GPR是任意函数的通用近似(universal approximator)。
高斯过程分类(Gaussian Process Classification, GPC)
GPC与logistic回归(logistic regression)的关系可类比权重空间下GPR与贝叶斯线性回归的关系。对高斯过程下的数据 和分类标签 ,依据贝叶斯定理(Bayes’ theorem) 可以表示为 或 。两种表示方法定义了两类GPC模型,即生成模型(generative model)和判别模型(discriminative model),前者对 建模,后者对 建模。
对判别模型,在二元分类(binary classification)中,给定权重矩阵和从实数域映射至 区间的响应函数(例如Sigmoid函数),可定义如下的线性分类器(linear classifier):
GPC定义潜函数(latent function) 并赋予其正态先验 ,随后使用独立观测的标签数据 、 计算潜函数和其经过响应函数后的输出:
在由二元分类过渡至多元分类时,需要将响应函数替换为归一化指数函数(softmax function)。在高斯过程中构建生成模型的常见做法是对每个分类标签建立 并提供数学期望和核函数的先验。使用生成模型对 建模会得到与判别模型相同的结果。生成模型和判别模型效果相当,判别模型不考虑数据和标签的联合分布直接输出分类结果,因此有更少的变量需要学习,有利于提高学习效率和精度;生成模型由于估计了 ,因此更适用于应对复杂数据,例如缺失值、极端值、无标签值的情形。
GPC的似然是潜函数对学习样本的因子乘积:,考虑Sigmoid函数的表达式,该形式不是正态分布,因此GPC的后验没有解析形式,要求使用非正态似然的求解方法,例如使用解析近似将非正态后验近似表示为正态后验。
其它
除GPR和GPC外,高斯过程建模可以有其它更复杂的形式,例如半参数高斯过程(Semi-parametric Gaussian Processes, SGP)、深度高斯过程(Deep Gaussian Process, DGP)、可加高斯过程(Additive Gaussian Process, AGP)等。
应用
高斯过程主要应用于各领域的建模和预报,在时间序列分析中,高斯过程被用于时间序列的多步前向预报(multi-step-ahead prediction)、在信号处理中,高斯过程建模是处理非线性信号的工具、在人工智能领域,GPR和GPC是被广泛使用的机器学习算法,具有卷积结构的高斯过程(Convolutional Gaussian Processes, CGP)在图像处理问题中表现出了良好效果。此外一些高斯过程可以模拟特殊的科学现象,例如OU过程被用于神经活动的建模、布朗桥被用于模拟生物的迁徙行为。
参考资料
最新修订时间:2023-11-17 22:50
目录
概述
定义
参考资料