数量分类学(numerical taxonomy)也称
数值分类学,是一门边缘学科,使用数学方法和电子计算机研究解决生物学中的分类问题。20世纪50年代末,美国生物统计学家R·R·索卡尔和英国微生物学家P·H·A·斯尼思等,开创了数量分类学。发展初期,数量分类方法先被表征学派接受。20世纪60年代以后,数量分支分类也得到发展,数量分类学逐渐被愈来愈多的生物学家所接受,广泛应用于
生物分类中。数量分类学的产生在生物分类中提出定量的观点,并采用数学方法,把分类学的研究从定性的描述提高到定量的综合分析,对
生物分类学的发展带来重大影响。
基本观点
分类必须有被分类的对象,分类的对象是由许多被分类的实体所组成的集合。如此被分类的实体是分类的基本单位,称为运算分类单位,简称分类单位(OTU),由全部分类单位组成的集合称为被分类群。分类还需要有分类的依据,分类的依据取决于被分类群中分类单位的性状,所谓性状,就是一个分类单位区分于其他分类单位的性质、特征或属性。分类单位在某个性状所具有的状态称为性状状态,简称为状态。例如种子植物某一属的分类,可以取该属的种或变种为运算分类单位。如果以花的颜色作为分类性状,花所具有的不同颜色就是性状状态。分类就是将被分类群中所有分类单位,依据它们的性状状态作出划分或聚合。经过分类获得的分类单位集合,称为分类群。分类从形式上区分产生互相对立的概念:重叠与非重叠的分类,一元与多元的分类,划分与聚合的分类,系统与非系统的分类。一个分类单位允许同时属于不同分类群,称这样的分类为重叠的分类;依据一个性状进行的分类称为一元分类,综合多个性状获得的分类是多元分类;分类获得的分类群根据隶属关系可以排成一定的系统,称这样的分类为系统分类。分类有两种进行方式,从分类单位开始聚合为分类群称为聚合的分类;先把被分类群看作是一个整体,再划分为分类群,称为划分的分类。
生物分类通常是非重叠的、多元的、系统的分类。数量分类学的分类方法常常采取聚合的分类。
生物分类与非生命事物的分类具有本质区别,生物分类学家追求理想的自然分类。然而什么是真正自然的分类?如何达到这个目的?关于
生物分类学中诸如此类的许多根本问题,分类学家意见不一致。20世纪50年代
生物分类产生两种对立的观点,即表征与分支两种分类观点。基于两种不同的观点,数量分类学产生两种不同的数量分类方法。
历史发展
表征分类观点由法国植物学家M·阿当松提出,这个观点认为:作为分类的基础,性状愈多,包含的信息愈多,分类结果愈好;所有性状对分类所起的作用都是同等重要;分类单位之间的全面相似性是许多性状相似性比较的函数;分类是基于多种性状全面的相似性。由于表征分类的思想观点与数学方法有许多共同之处,表征分类学家最早使用数字工具和电脑技术从事分类学的研究。因此数量分类学中的表征分类方法发展较早,比较完善。
分支分类由德国昆虫学家W·亨尼希提出,他的代表著《系统发育分类学》全面地阐述了分支分类观点。他对当时的分类学进行批判,指出生物个体所表现的性状与其演化关系不完全一致,因此表现性状不可靠,生物分类的依据应该从演化的谱系中寻找。利用图1可以进一步说明这两种不同的观点。图1中A、B、C和D分别表示在同一时间水平上的四个演化分支,D最早分化出来,一般情形,D与B具有较大的表现性状差异,最后分化出来的C,其表现性状应更接近B,可是生物进化的速度并不完全一致,有可能在表现性状上C更接近于D。对于这种情形,根据表征性差异,将C与D归属于一个分类群,A与D归属于另一个分类群。如果从演化分支关系上去考虑,就认为C与D归属同一类不甚合理,而应将C与 A、 B同归为一类,因为它们在演化的谱系关系上比较接近。
分支分类观点提出来以后,得到许多分类学家的支持,并应用于分类实践中,在数量分类学中产生了相应于分支类的数学方法。分支分类的数学方法起步较晚,理论与方法都不十分完善,有待发展。
表征分类的过程
性状编码
为了使用数学工具进行分类,必须首先对性状进行编码,把全部性状状态的记录都改换成数值。不同性状分别采取不同的编码方式:①数值性状,如生物体的长度、体积、重量或实验获得的数据,如果这些数值的大小能够体现分类学意义,通常不必编码,直接使用。②二元性状,表现为肯定和否定两种对立状态的性状,分别以数值0和1编码。通常肯定为1,否定为0。③有序多态性状,表现为3种状态以上,能排列为一定次序的性状,按排列的次序分别以整数给予编码。例如生物体表被毛性状,分无毛、疏毛、多毛和密毛几个状态,分别以数值 0,1,2和3表示。④无序多态性状,表现为3种状态以上,不能排列成一定次序的性状。无序多态性状表现复杂,编码比较困难,可以根据性状的实际意义作适当分解,再进行编码。
如果有t个分类单位,n个性状,编码后获得的数据排成n行t列矩阵,这个矩阵称为原始数值矩阵。
原始数据标准化
从编码得到的原始数据,不同性状的数值来源不同,单位和量纲不同,因而数值的大小和变化幅度不同。性状之间的这种差异不具有分类意义,需要施行标准化变换给予消除。
相似性的定量表示
分类需要比较分类单位之间相亲性的程度,描述这种相亲性的相似性系数有以下几类:距离系数、相关系数、联合系数和信息系数等。各种系数的数学公式都是以不同的数学方法,从不同的角度综合全部性状,计算两分类单位之间的相似性。计算每一对分类单位的相似性系数,获得一个t阶对称矩阵,称为相似性矩阵。相似性矩阵包含了被分类类群中所有分类单位之间的相似性关系,分类运算将依据这种关系而进行。图2中的数据为桦木科6个属最早计算出来的相似性距离系数。
聚类运算通常采取聚合运算法。运算从相似性矩阵开始,最初把每一个OTU都看作是一个分类群,将最相似的类群归并为新类群。如此重复多次归并,直到所有OTUs都聚合在一起,每次聚合获得新类群,需要计算它与其他类群的相似性系数。这里是分类运算的关键,新相似性系数的计算是否合理,它将影响整个运算过程。不同的计算公式将引出不同的分类方法。
分类结果的表示
生物分类的结果包含有多个分类群层层隶属的复杂关系,需要采取比较形象的表示方法。分类结果的表示依分类的方法而定,主分量分类法可采取坐标图和体视图,图论分类可画出最小生成树图,分类单位较多时可采取相似性矩阵图。最通常的表示方法是树谱图。依表征分类建立的树谱图称为表征树谱图。图2给出了桦木科数据的树谱图(距离系数)。
数量分支分类
分支分类把分类的原则确立在生物演化的谱系关系上,得到许多生物学家的重视,相应的定量分类方法也获发展。已经为分类学家采用的方法有W·H·瓦格纳网络,J·H·卡明和R·R·索卡尔的单系法以及基于性状加权的合谐法等。
数量分支分类与表征分类方法完全不同,它的数学理论基础是组合数学中的图论,数学家正在努力建立一套从公理开始的,严谨的分支分类数学理论体系。1965年卡明和索卡尔提出简约进化假设,它为数量分支分类奠定了一条基本原则。
为了得到符合谱系关系的分类结果,需要按照演化的次序,对分类性状赋以非负整数编码,通常把0定为原始状态,编码数值的增加与生物进化方向一致。图3中的数据是卡明和索卡尔从自己虚构的动物群体,为说明分类方法而构造的性状编码数据。旁边的树状图是该数据的分支分类计算结果。
按照分支谱系关系而建立的树谱图称为分支树谱图。整个分支树谱图有一个共同的演化祖先,这是演化的起点,分支树谱图显示出生物演化的关系。每一个演化分支的顶端都是现存的OTUs,两个OTUs的最近共同祖先如果不属于已知的分类单位,那就是为构造谱系图而假设的,已经绝灭的祖先,称为假设分类单位,简作“HTU”,不论是分类单位抑或是假设分类单位都称作分支单位或演化单位。如果性状编码每增加一个编码值定为进化的度量单位“步”,分支树谱图中先后邻接的两个分支单位间,所有性状进化的步数称为该分支单位间的演化长度。按照简约进化原则,对于一个分支分类问题,在所有可能的分支树谱图中符合真实演化情况的,全图演化长度总和取最小值。追求最小演化长度成为设计分支分类运算方法的原则。单系法的运算步骤如下:
①对每个分支单位计数性状状态为0的个数。具有0数最多的分支单位意味与原始祖先最接近。
②从数值矩阵中删去具有0数最多的分支单位,然后找出数值矩阵中无0的性状,若找不到无0的性状,重新选择下一个0数最多的分支单位给予删除,必要时删去两个以上具有较多0值的分支单位,直到至少出现一个无0的性状。
③在分支谱系图中作出相应于被删去分支单位的分支。
④找出无0值的性状,凡此性状从数据中都减去1,必要时重复减1,直到该性状至少含有一个0。再将全部是0的性状从矩阵中除去。
多次重复前面从1~4的步骤,每循环一次有部分分支单位被分支,直到全部分支单位都被分支为止。
分类的各种方法
数量分类学的广泛应用,促使它的数学理论迅速发展,各种数学工具包括集合论、图论、
概率论、
统计学、
线性代数、
信息论和
模糊数学都被引用进来,各种数学工具产生了不同的分类方法。方法的多样性满足各种应用的需要。
系统分类法
这是由几何、代数和统计等运算组成的多种分类方法。已有8种以上的方法被总结于统一的公式中。因而多种分类方法可以编写在同一个电脑程序中,为分类工作带来极大的方便。系统分类法发展较早,理论和方法都比较完善,是一种比较成熟而定型的分类方法,在解决分类问题中广为应用。
图论分类法
组合数学中的图论应用于分类产生了图论分类法。图论中的有向树图和赋权有向树图是利用数学方法描述生物演化关系的重要工具,从而图论成为定量分支分类的数学理论基础。有关分支分类的图论研究发展很快。数学理论的发展,导出更完善的分支分类方法。图论方法的另一个发展方向是利用赋权无向图理论中的最小生成树来表现生物分类关系。它也可用于表征分类。
图论分类法作为分支分类的工具广泛应用于古生物、遗传和进化理论的研究,20世纪70年代以后随着分子生物学的发展,图论分类法被应用于研究各种蛋白质和核酸等生物大分子的分类。从分子的水平上描述遗传与进化的规律。图论分类法很不完善,有待解决的问题很多,但是由于它的重要性,发展迅速。
主分量分类法
多元统计中主分量分析也应用于分类。在分类问题中,众多性状具有相关性,在性状为坐标的多维空间中如果能找到一个方向,性状在该方向上反映的离差变化最大,沿此方向就确定了一个向量称为第一主分量,其次为第二、三、……主分量。这种方法犹如从多性状的复杂事物中抓主要矛盾,利用抓主要矛盾的运算技巧,把一个多维的分类问题简化为低维空间上的简单问题。从而使分类问题迎刃而解。
主分量分类法发展较早,它的数学基础是线性代数有关特征值与特征向量的内容,为了认识表现复杂的生物学问题它是一个十分得力的工具。图4给出中国猪种主分量分析结果。通过分析指出,认识中国猪种的3个主要方面是猪体型大小、生殖能力和产肉脂肪率。相应于3个主分量的坐标图中,画出48个主要猪种的位置,对中国猪种给出十分形象的空间描述。主分量分类法不仅对生物分类,在
生态学、环境科学以及农、林、医等实际问题中都得到广泛应用。
信息分类法
信息论也被用于分类,信息论中熵或信息量,这个概念可以描述生物类群的多样性。较好的分类希望得到离散程度较小,倾向于清一色的类群,这就是信息分类的基本思想。信息分类常用于
生物地理学。在分子生物学,蛋白质分子中氨基酸的排列和核酸分子中核苷酸的排列都与电信编码类似,从分子水平探索生物演化系统关系,信息分类有更广阔前途。
模糊分类法
建立在模糊集合概念之上的分类方法称为模糊分类法。由于许多生物表现性状都属于模糊概念,模糊分类更适合生物分类的需要。已应用于图象识别等领域。