数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)。
途径
数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。
假定在
公司的
数据仓库选择了
数据,用于分析。这样数据集将非常大。在大量数据上进行复杂的
数据分析扣挖掘将
需要很长时间,使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示,它虽然小,但仍大致保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。
分类
1、特征归约
特征归约是从原有的特征中删除不重要或
不相关的特征,或者通过对特征进行
重组来减少特征的个数。其原则是在保留、甚至提高原有判别能力的同时减少特征向量的维度。特征归约算法的输入是一组特征,输出是它的一个子集。在领域知识缺乏的情况下进行特征归约时一般包括3个步骤:
(1)搜索过程:在特征空间中搜索特征子集,每个子集称为一个状态由选中的特征构成。
(2)评估过程:输入一个状态,通过评估函数或预先设定的阈值输出一个评估值搜索算法的目的是使评估值达到最优。
(3)分类过程:使用最终的特征集完成最后的算法。
特征归约处理的效果:
(1)更少的数据,提高挖掘效率
(2)更高的数据挖掘处理精度
(3)简单的数据挖掘处理结果
(4)更少的特征。
2、样本归约
样本都是已知的,通常数目很大,
质量或高或低,或者有或者没有关于实际问题的先验知识。
样本归约就是从
数据集中选出一个有代表性的
样本的子集。子集大小的确定要考虑计算成本、存储要求、
估计量的精度以及其它一些与算法和数据特性有关的因素。
初始数据集中最大和最关键的维度数就是样本的数目,也就是数据表中的记录数。数据挖掘处理的初始数据集描述了一个极大的总体,对数据的分析只基于样本的一个子集。获得数据的子集后,用它来提供整个数据集的一些
信息,这个子集通常叫做估计量,它的质量依赖于所选子集中的元素。取样过程总会造成取样误差,取样误差对所有的方法和策略来讲都是固有的、不可避免的,当子集的规模变大时,取样误差一般会降低。一个完整的数据集在理论上是不存在取样误差的。与针对整个数据集的
数据挖掘比较起来,样本归约具有以下一个或多个优点:减少
成本、速度更快、范围更广,有时甚至能获得更高的精度。
3、特征值归约
特征值归约是特征值离散化技术,它将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这种
技术的好处在于简化了数据描述,并易于理解数据和最终的挖掘结果。
特征值归约可以是有参的,也可以是无参的。有参方法使用一个
模型来评估数据,只需存放参数,而不需要存放实际数据;有参的特征值归约有以下两种:
(2)对数线性模型:近似离散多维概率分布。
无参的特征值归约有3种:
(1)
直方图:采用分箱近似数据分布,其中V-最优和MaxDiff直方图是最精确和最实用的;
(2)
聚类:将数据元组视为对象,将对象划分为群或聚类,使得在一个聚类中的对象“类似”而与其他
聚类中的对象“不类似”在数据归约时用数据的聚类代替实际数据;
(3)选样:用数据的较小随机样本表示大的数据集,如简单选择n个样本(类似样本归约)、聚类选样和分层选样等。
基本知识
对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。
对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。
在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数:
(1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。
(2)预测/描述精度:估量了数据归纳和概括为模型的好坏。
(3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。
算法特征
(1)可测性
(2)可识别性
(3)单调性
(4)一致性
(5)收益增减
(6)中断性
(7)优先权
和生成归约后的特征集有关的标准任务有两个:
(1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法
(2)特征构成:特征构成依赖于应用知识。
特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。最优方法的近似:
(1)只对有前景的特征子集进行检查
(2)用计算简单的距离度量替换误差度量
(3)只根据大量数据的子集选择特征。