模糊聚类分析是一种采用
模糊数学语言对事物按一定的要求进行描述和分类的数学方法。模糊聚类分析一般是指根据研究对象本身的属性来构造
模糊矩阵,并在此基础上根据一定的隶属度来确定
聚类关系,即用
模糊数学的方法把样本之间的
模糊关系定量的确定,从而客观且准确地进行
聚类。聚类就是将数据集分成多个
类或
簇,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为“最小化类间相似性,最大化类内相似性”原则。
主要内容
模糊聚类分析是涉及事物之间的模糊界限时按一定要求对事物进行分类的数学方法。
聚类分析是
数理统计中的一种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。事物之间的界限,有些是确切的,有些则是模糊的。例人群中的面貌相像程度之间的界限是模糊的,天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法。模糊聚类分析广泛应用在
气象预报、
地质、
农业、
林业等方面。通常把被聚类的事物称为样本,将被聚类的一组事物称为样本集。模糊聚类分析有两种基本方法:系统聚类法和逐步聚类法。
基本方法
基本过程
(1)计算样本或变量间的
相似系数,建立模糊
相似矩阵;
(2)利用模糊运算对相似矩阵进行一系列的合成改造,生成模糊
等价矩阵;
(3)最后根据不同的截取水平λ对模糊等价矩阵进行截取分类
系统聚类法
系统聚类法是基于模糊等价关系的模糊
聚类分析法。在经典的聚类分析方法中可用经典
等价关系对样本集X进行聚类。设R是 X上的经典等价关系。对X中的两个元素x和y,若xRy或(x,y)∈R,则将x和y并为一类,否则x和y不属于同一类。
应用这种方法,分类的结果与α的取值大小有关。α取值越大,分的
类数越多。α小到某一值时,X中的所有样本归并为一类。这种方法的优点在于可按实际需要选取α的值,以便得到恰当的分类。
①用数字描述样本的特征。设被聚类的样本集为 X={x1,…,xn}。每个样本均有p种特征,记作xi=(xi1,…,xip);i=1,2,…,n;xip表示描述样本xi的第p个特征的数。
②规定样本之间的
相似系数rij(0≤rij≤1;i,j=1,…,n)。rij描述样本xi与xj之间的差异或相似的程度。rij 越接近于1,表明样本xi与xj之间的差异越小;rij 越接近于0,表明xi与xj之间的差异越大。rij可用主观评定或集体评分的方法规定,也可用公式计算,如采用
夹角余弦法、最小最大法、算术平均最小法等。因为rii=1(xi与自身没有差异),rij=rji(xi与xj之间的差异等同于xj与xi之间的差异),所以由rij(i,j=1,…,n)可得X上的模糊相似关系。
一般,R不具备可传递性,因而R不一定是 X上的模糊等价关系。
③运用合成运算R=R⋅R(或R=R⋅R等)求出最接近相似关系R的模糊
等价关系S=R(或R等)。若R已是模糊等价关系,则取S=R。
④选取适当水平α(0≤α≤1),得到X 的一种聚类。
逐步聚类法
逐步聚类法是一种基于模糊划分的模糊
聚类分析法。它是预先确定好待分类的样本应分成几类,然后按最优化原则进行
再分类,经多次迭代直到分类比较合理为止。
在分类过程中可认为某个样本以某一隶属度隶属于某一类,又以另一隶属度隶属于另一类。这样,样本就不是明确地属于或不属于某一类。若样本集有 n个样本要分成c类,则它的模糊划分
矩阵为此c×n模糊划分矩阵有下列特性:
①uij∈[0,1];i=1,…,c;j=1,…,n。
②即每一样本属于各类的隶属度之和为1。
③即每一类模糊子集都不是空集。
最优分类
模糊划分
矩阵有无穷多个,这种模糊划分矩阵的全体称为模糊划分空间。最优分类的标准是样本与聚类中心的距离平方和最小。
一个样本是按不同的隶属度属于各类的,所以应同时考虑它与每一类的聚类中心的距离。算出最优模糊划分矩阵后,还必须求得相应的常规划分。此时可将得到的聚类中心存在计算机中,将样本重新逐个输入,去与每个聚类中心进行比较,与哪个聚类中心最接近就属于哪一类。
这种方法要预先知道分类数,如分类数不合理,就重新计算。这就不如运用基于模糊
等价关系的
系统聚类法,但可以得到聚类中心,即各类模式样本,而这往往正是所要求的。因此可用模糊等价关系所得结果作为初始分类,再通过反复
迭代法求得更好的结果。
应用实例
在进行
证券交易时,可能会获得较高的
投资收益,但同时也存在着较大的
证券投资风险。 证券市场是一个风险无时不在的市场,所以投资者应当充分深入的了解
证券市场蕴含的各项风险并谨慎行事,从各个方面,综合考虑投资的利弊,理性投资。随着股市发张投资手法和
证券监管方法的成熟,以及上市公司数量的不断增多,如何科学合理的进行股票的分析和选择是每个投资者所要解决的首要问题。
传统的
聚类分析是一种硬划分,即把每个待辨识的对象严格的划分到某类中,此类划分的界限是分明的。 而实际上大多数对象没有严格的属性,它们在形态和类属方面具有“亦此亦彼”的性质。 模糊聚类分析可以更好地解决这类问题,模糊聚类分析有多种方法,如
传递闭包法、最大树法、编网法等,广泛应用于许多领域。
最后可以通过综合指标来选择股票:
第一类:股票综合指标较高,发展较好,该类公司发展强劲,潜力比较大,盈利能力较高。 该类公司是较好的投资目标,但总体数量不多。
第二类:股票综合指标相对较低,在几个方面表现一般。 平均意义水平下,每股净资产较高,说明该公司就有一定资金基础。 主营利润增长率较高,说明该类公司处于高速成长其,具有较大的发展空间。 但该类公司经营有待改善,具有一定的投资价值。
第三类:股票综合指标非常低,属于低收益、低成长的“绩差股”。各个指标都相对最低,与其他两类有明显的差异。 这类公司经营稳定性差,发展不顺利,不利于投资。 该类股票几乎无投资价值。