的算法之一,通过统计学的聚类分析方法进行数据挖掘。
聚类分析将大量的数据划分为性质相同的子类,以便于了解数据的分布情况。因此,它广泛应用于模式识别,图像处理,数据压缩等许多领域,例如,
1 在市场分心中,通过聚类分析能帮助决策者识别不同特征的客户群以及各客户群的行为特征,
2 在生物工程研究中,聚类分析能够用于推导动植物的种类,按照功能对基因进行划分并获取种群中的固有结构特征,
3 在非关系数据库领域,聚类分析能够识别具有相同地理特征的区域以及该区域的环境和人的特征。
4 在Web信息检索领域,聚类分析能够对Web文档进行分类,提高检索效率。
聚类就是把一组个体按照相似性归成若干类别。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体的距离尽可能的大。聚类的结果可以得到一组数据对象的集合,称其为簇。簇中的对象彼此相似,而其他簇中的对象相异。在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。
聚类技术最早在统计学和人工智能等领域得到广泛的研究。在人工智能中,聚类又称作无监督归纳。因为和分类学习相比,分类学习的例子或数据对象有类别标记,而要聚类的例子没有标记,需要有聚类学习算法来自动完成。近年来,随着数据挖掘的发展,聚类以其特有的优点,成为数据挖掘研究领域一个非常活跃的研究课题。在数据挖掘里,面临的常常是含有大量数据的数据库,因此要探讨面向大规模数据库的聚类方法,以适应新问题带来的挑战。