数据挖掘技术是数据处理的技术,从数据本身来考虑,通常
数据挖掘需要有
数据清理、
数据变换、数据挖掘
实施过程、模式评估和
知识表示等8个步骤。
技术流程
从数据本身来考虑,通常
数据挖掘需要有
数据清理、
数据变换、数据挖掘
实施过程、模式评估和
知识表示等8个步骤。
(1) 信息收集:根据确定的
数据分析对象抽象出在数据分析中所需要的
特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于
海量数据,选择一个合适的
数据存储和管理的
数据仓库是至关重要的。
(2)
数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的
数据共享。
(3) 数据
规约:执行多数的
数据挖掘算法即使在少量数据上也需要很长的时间,而做商业运营数据挖掘时往往数据量非常大。数据规约技术可以用来得到
数据集的规约表示,它小得多,但仍然接近于保持原数据的
完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
(4) 数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少
属性值),含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。
(5) 数据变换:通过平滑聚集,数据概化,规范化等方式将
数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的
离散化来转换数据也是重要的一步。
(6) 数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,
应用统计方法、事例推理、
决策树、
规则推理、模糊集、甚至神经网络、
遗传算法的方法
处理信息,得出有用的分析信息。
(7) 模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
(8) 知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在
知识库中,供其他
应用程序使用。
数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。不是每件数据挖掘的工作都需要这里列出的每一步,例如在某个工作中不存在多个数据源的时候,步骤(2)数据集成的步骤便可以省略。
步骤(3)数据规约(4)数据清理(5)数据变换又合称
数据预处理。在数据挖掘中,至少60%的费用可能要花在步骤(1)信息收集阶段,而至少60%以上的精力和时间是花在数据预处理
操作方法
神经网络
神经网络由于本身良好的
鲁棒性、
自组织自适应性、
并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,用于分类、预测和
模式识别的
前馈式
神经网络模型;以hopfield的
离散模型和连续模型为代表的,分别用于
联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于
聚类的
自组织映射方法。神经
网络方法决策过程。
遗传算法
遗传算法是一种基于生物
自然选择与遗传机理的随机搜索算法。遗传算法具有的隐含
并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
sunil已成功地开发了一个基于遗传算法的
数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一[4]。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传
算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。
决策树是一种常用于
预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于
信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如 schlimmer和fisher设计了id4递增式学习算法;钟鸣,
陈文伟等提出了ible算法等。
粗集方法
粗集理论是一种研究不精确、不确定知识的
数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。但粗集的
数学基础是
集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。
它是利用覆盖所有正例、排斥所有
反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michalski的aq11方法、
洪家荣改进的aq15方法以及他的ae5方法。
在数据库字段项之间存在两种关系:
函数关系(能用函数公式表示的
确定性关系)和
相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用
统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的
最大值、
最小值、总和、
平均值等)、
回归分析(用
回归方程来表示变量间的数量关系)、
相关分析(用
相关系数来度量变量间的相关程度)、差异分析(从
样本统计量的值得出差异来确定
总体参数之间是否存在差异)等。
即利用模糊集合理论对实际问题进行模糊评判、
模糊决策、
模糊模式识别和
模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用
隶属度来刻画模糊事物的亦此亦彼性的。
李德毅等人在传统
模糊理论和概率统计的基础上,提出了
定性定量不确定性转换模型--
云模型,并形成了
云理论。
挖掘对象
根据信息
存储格式,用于挖掘的对象有关系数据库、
面向对象数据库、
数据仓库、文本
数据源、
多媒体数据库、
空间数据库、
时态数据库、异质数据库以及internet等。
数据挖掘软件
SAS EM
神舟通用公司的K-Miner