数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。数据相关性是指数据之间存在某种关系,如正相关,负相关。
定义
数据相关性是指数据之间存在某种关系。大数据时代,数据相关分析因其具有可以快捷、高效地发现事物间内在关联的优势而受到广泛关注,并有效地应用于推荐系统、商业分析、公共管理、医疗诊断等领域。数据相关性可以时序分析、空间分析等方法进行分析。数据
相关性分析也面对着高维数据、多变量数据、大规模数据、增长性数据及其可计算方面等挑战。
相关关系
概述
相关关系,是指2个或2个以上变量取值之间在某种意义下所存在的规律,其目的在于探寻数据集里所隐藏的相关关系网。从统计学角度看,变量之间的关系大体可分两种类型:函数关系和相关关系。一般情况下,数据很难满足严格的函数关系,而相关关系要求宽松,所以被人们广泛接受。需要进一步说明的是,研究变量之间的相关关系主要从两个方向进行:一是相关分析,即通过引入一定的统计指标量化变量之间的相关程度;另一个是回归分析。由于回归分析不仅仅刻画相关关系,更重要的是刻画因果关系。
各种相关系数
对于不同测量尺度的变数,有不同的相关系数可用:
Pearson相关系数(Pearson's r):衡量两个等距尺度或等比尺度变数之相关性。是最常见的,也是学习统计学时第一个接触的相关系数。
净相关(partial correlation):在模型中有多个自变数(或解释变数)时,去除掉其他自变数的影响,只衡量特定一个自变数与因变数之间的相关性。自变数和因变数皆为连续变数。
相关比(correlation ratio):衡量两个连续变数之相关性。
Gamma相关系数:衡量两个次序尺度变数之相关性。
Spearman等级相关系数:衡量两个次序尺度变数之相关性。
Kendall等级相关系数(Kendall tau rank correlation coefficient):衡量两个人为次序尺度变数(原始资料为等距尺度)之相关性。
Kendall和谐系数:衡量两个次序尺度变数之相关性。
Phi相关系数(Phi coefficient):衡量两个真正名目尺度的二分变数之相关性。
列联相关系数(contingency coefficient):衡量两个真正名目尺度变数之相关性。
四分相关(tetrachoric correlation):衡量两个人为名目尺度(原始资料为等距尺度)的二分变数之相关性。
Kappa一致性系数(K coefficient of agreement):衡量两个名目尺度变数之相关性。
点二系列相关系数(point-biserial correlation):X变数是真正名目尺度二分变数。Y变数是连续变数。
二系列相关系数(biserial correlation):X变数是人为名目尺度二分变数。Y变数是连续变数。
时序分析
以分析时间序列的发展过程、方向和趋势,预测将来时域可能达到的目标的方法。此方法运用概率统计中时间序列分析原理和技术,利用时序系统的数据相关性,建立相应的数学模型,描述系统的时序状态,以预测未来。它的基本步骤是:(一)以有关的历史资料的数据为依据,区别不规则变动、循环变动、季节变动等不同时间的动势,特别是连续的长期动势,并整理出统计图。(二)从系统原则出发,综合分析时间序列,反映曾经发生过的所有因果联系及影响,分析各种作用力的综合作用。(三)运用数学模型求出时间序列以及将来时态的各项预测值,如
移动平均法、季节系数法、
指数平滑法。时序分析适用以数据量化的时序系统,主要是以概率统计分析随时间变化的随机系统。在新闻工作中,一个历史阶段的来稿数量的变动;版面内容的变动;订阅份数的变动;读者来信来访的变动等等,都是随时间变化的随机系统。利用概率统计,整理过去的数据,分析其变化规律,特别是掌握连续的长期动势,可以预测新闻现象随时间变化的未来的状态。
挑战
高维数据的相关分析
在探索随机向量间相关性度量的研究中,随机向量的高维特征导致巨大的矩阵计算量,这也成为高维数据相关分析中的关键困难问题。面临高维特征空间的相关分析时,数据可能呈现块分布现象,如医疗数据仓库、电子商务推荐系统.探测高维特征空间中是否存在数据的块分布现象,并发现各数据块对应的
特征子空间,本质上来看,这是基于相关关系度量的特征子空间发现问题。结合
子空间聚类技术,发现相关特征子空间,并以此为基础,探索新的分块矩阵计算方法,有望为高维数据相关分析与处理提供有效的求解途径。然而,面临的挑战在于:① 如果数据维度很高、数据表示非常稀疏,如何保证相关关系度量的有效性?②分块矩阵的计算可以有效提升计算效率,但是,如何对分块矩阵的计算结果进行融合?
多变量数据的相关分析
在现实的大数据相关分析中,往往面临多变量情况。显然,发展多变量非线性相关关系的度量方法是我们面临的一个重要的挑战。
大规模数据的相关分析
大数据时代,相关分析面向的是数据集的整体,因此,试图高效地开展相关分析与处理仍然非常困难。为了快速计算大数据相关性,需要探索数据集整体的拆分与融合策略。显然,在这种“分而治之”的策略中,如何有效保持整体的相关性,则是大规模数据相关分析中必须解决的关键问题。有关学者给出了一种可行的拆分与融合策略,也指出随机拆分策略是可能的解决路径。当然,在设计拆分与融合策略时,如何确定样本子集规模、如何保持子集之间的信息传递、如何设计各子集结果的融合原理等都是具有挑战性的问题。
增长性数据的相关分析
大数据中,数据呈现快速增长特征。更为重要的是,诸如电商精准推荐等典型增长性数据相关分析任务,迫切需要高效的在线相关分析技术。就增长性数据而言,可表现为样本规模的增长、维数规模的增长以及数据取值的动态更新。显然,对增长性数据相关分析而言,特别是对在线相关分析任务而言,每次对数据整体进行重新计算对于用户而言是难以接受的,更难以满足用户的实时性需求。我们认为,无论何种类型的数据增长,往往与原始数据集存在某种的关联模式,利用已有的关联模式设计具有递推关系的批增量算法是一种行之有效的计算策略。那么,面向大数据的相关分析任务,探测增长性数据与原始数据集的关联模式,进而发展具有递推关系的高效批增量算法,可为增长性数据相关分析尤其是在线相关分析提供有效的技术手段。