协方差
数学定义
协方差,又称共变异数,被用来描述两个随机变量之间线性相关程度,常用的符号有cov(X, Y),σ(X, Y)等。
历史
卡尔·皮尔逊(Karl Pearson) 是现代相关分析的奠基者,他在1896年发表的论文中正式定义了相关系数,并在研究中广泛使用协方差。它给出了相关系数公式的标准化形式:
其中,是协方差,和分别是和的标准差。这篇论文标志着现代相关系数和协方差的形式化定义的诞生。
在此之前,19世纪的统计学家,比如弗朗西斯·高尔顿(Francis Galton),也曾在研究遗传学和变量相关性时间接使用过协方差的思想。高尔顿的研究开启了对变量间关系的定量分析,而皮尔逊进一步发展了这些思想。
如今,随着矩阵运算和线性代数的普及,协方差矩阵被广泛用于多元统计分析、机器学习和数据科学等领域,并在经济学、遗传学等领域有着重要作用。
定义
设和为两个实值随机变量,它们的协方差定义为它们偏离各自期望值的乘积的期望值(或均值):
其中,是的期望值,cov是协方差的英文covariance的缩写。协方差有时也记为或,与方差的表示类似。
的方差为
可以看出协方差的形式类似于方差,只是把其中的一个换成了;协方差又有二者的协同参与,由此得出“协方差”的名称。
通过利用期望的线性性质,协方差的计算公式可以简化为乘积的期望减去各自期望值的乘积:
如果随机变量对是离散实值随机变量,且可以取值,其中,且每种取值的概率相等(即),则协方差可以用随机变量的均值和表示为:
也可以不直接涉及均值表示为:
更一般地,若有个可能的离散取值,且各取值的概率为,则协方差为:
当离散随机变量和的联合概率分布时,协方差的计算使用双重求和:
意义与由来
协方差被用来描述两个随机变量之间线性相关程度。
假设两个随机变量存在线性关系:。为使这种关系最接近于实际的的分布,需要使误差的平方和(均方误差)达到最小。经过计算求出使S达到最小的a, b值,代入化简得
分别为的方差。要使S最小,必须使:
达到最大。
由此,我们定义协方差,相关系数。则
由该式可知:若越大,则S越小,与的相关程度越高;若越小,则与的相关程度越低。因此,我们可用它来作为衡量与相关程度的一个量,并称之为相关系数。
相关系数是一个无量纲的量,用它来描述与的线性相关关系不受单位影响;而则不同,它是一个有量纲的量,必须依赖于与的度量单位。因此人们通常用而不用来判断与相关程度。
协方差的符号也能反映了两个随机变量之间线性关系的性质。如果协方差为正,说明两个随机变量具有正相关关系,即当一个随机变量的取值增加时,另一个随机变量的取值也倾向于增加。如果协方差为负,说明两个随机变量具有负相关关系,即当一个随机变量的取值增加时,另一个随机变量的取值倾向于减少。如果协方差为零,说明两个随机变量在线性关系上不相关。但需要注意的是,这并不意味着它们完全不相关,可能存在非线性关系。
协方差矩阵
给定一个随机向量,其均值向量为,协方差矩阵定义为:
展开后,协方差矩阵的元素可以表示为:
具体形式如下:
协方差矩阵具有以下性质:
协方差矩阵是一个在多元统计分析和概率论中非常重要的矩阵,用于描述多个随机变量之间的协方差关系。它是多维随机变量的分布特性的重要特征之一,常用于数据分析、机器学习和信号处理等领域。
对于二维正态分布,其协方差矩阵描述了两个随机变量和的方差和协方差关系。协方差矩阵的形式为:
其中,是的方差,是的方差;是两个变量之间的相关系数,取值范围为。
协方差的性质
1.
即随机变量与其自身的协方差就是它的方差。
2.
随机变量与常数之间没有协方差。
3.
协方差具有对称性。
4.
缩放随机变量的系数会线性影响协方差。
5.
协方差具有平移不变性。
6.
协方差对线性组合满足分配律,具有双线性性。
7.当独立时,。但并不能说明独立。
8.对于方差有限的随机变量,有不等式
等号成立当且仅当线性相关。
对第8条性质证明如下:
如果,则不等式显然成立。否则,设随机变量
于是我们有:
设,
移项,得到不等式
应用
金融与投资分析
协方差在经济学中扮演着关键角色,各种资产收益之间的协方差被用于确定投资者在复杂的背景下应该持有不同资产的相对比例。
遗传学
在自然选择理论中,普莱斯公式(Price Equation)描述了某一遗传性状的频率如何随时间变化。该方程通过性状与适合度之间的协方差,为进化和自然选择提供了数学描述。这种方法有助于理解基因传递和自然选择对每一代群体中基因比例的影响。
统计学和图像处理
在统计学和图像处理中,协方差矩阵用于主成分分析,以减少特征维度,从而进行数据预处理。
参考资料
最新修订时间:2025-03-19 10:37
目录
概述
历史
定义
参考资料