监督分类又称
训练场地法、训练分类法,是以建立统计识别函数为理论基础、依据典型样本训练方法进行分类的技术,即根据已知
训练区提供的样本,通过选择
特征参数,求出特征参数作为决策规则,建立
判别函数以对各待分类影像进行的
图像分类,是模式识别的一种方法。要求训练区域具有典型性和代表性。判别准则若满足分类精度要求,则此准则成立;反之,需重新建立分类的决策规则,直至满足分类精度要求为止。
定义
监督分类是遥感图像分类的一种,即用被确认类别的样本像元去识别其他未知类别像元的过程。已被确认类别的样本像元是指那些位于训练区的像元。在这种分类中,分析者在图像上对每一种类别选取一定数量的训练区,计算机计算每种训练样区的统计或其他信息,每个像元和训练样本作比较,按照不同规则将其划分到和其最相似的样本类。监督分类可分两个基本步骤:选择训练样本和提取统计信息,以及选择分类算法。
样本和统计
训练样本的选择需要分析者对待分类图像所在区域有所了解,或进行过初步的野外调查,或研究过有关图件和高精度的航空照片。其最终选择的训练样本应能准确地代表整个区域内每个类别的光谱特征差异。显然,训练样本的选择时监督分类的关键。因此,同一类别的训练样本必须是均质的,不能包含其他类别,也不能是和其他类别之间的边界或混合像元;其大小、形状和位置必须能同时在图像和实地(或其他参考图)容易识别和定位。
在选择训练样本时,还必须考虑每一类别训练样本的总数量。作为一个普遍的规则,如果图像有N波段,则每一类别至少应该有10N个训练样本,才能满足一些分类算法中计算方差和协方差矩阵的要求。总的样本数量应根据区域异质程度而有所不同。
训练样本的来源可以有以下几种:
①实地收集,即通过GPS定位而实地记录的样本;
②屏幕选择,利用
先验知识直接从图像中提取训练数据的做法比较普遍与合理。
选择训练样本后,为了比较与评价样本好坏,需要计算各类别训练样本的基本光谱特征信息,通过每个样本的基本统计值(如均值、标准方差、最大值、最小值、方差、
协方差矩阵、相关矩阵等),检查训练样本的代表性,评价样本好坏,选择合适波段。评价训练样本的方法有两种:图表显示和统计测量。
图表显示是将训练样本的直方图、均值、方差、最大值及最小值绘制成线状、散状等图,目视评价各类别训练样本的分布、离散度和相关性,例如均值图、直方图、特征空间二维图等。
统计测量是利用统计方法来定量衡量训练样本之间的分离度。对于任何一个
多波段图像,我们总希望用最少的波段来区分不同类别,从而达到最高分类精度。通常对于训练样本,要按照一定决策规则检查两种类型的误差:①错分误差,即像元被分到一个错误的类别;②漏分误差,即像元没有被分到其对应的类别。
对于不同的应用环境,监督分类中训练样本的选择及对其统计评价的步骤和方法都会有所不同,基本操作过程为:
(1)收集有关分类区的信息,以了解该区主要分类类别及分布状况;
(2)对图像进行检查,对照已有参考数据或实地考察,评价图像质量,检查其直方图,决定是否需要别的预处理,并确定其分类系统;
(3)在图像上对每一类按照上文提到的标准选择训练样本,其必须是容易识别的,均匀分布于全图;
(4)对每一类别的训练样本,检查显示其直方图,计算、检查其均值、方差、协方差矩阵,以及其对应的特征空间相关波谱椭圆形图和指示其分离度的不同统计指数等,从而评估其训练样本的有效性;
(5)根据(4)中的检查和评估,修改训练样本,必要时重新选择和评估训练样本;
(6)将训练样本信息运用于合适的分类过程中。
分类算法
常用的监督分类算法有以下几种:
(1)平行算法
又称盒式决策规则,是根据训练样本的亮度值范围形成一个多维数据空间。其他像元的光谱值如果落在训练样本的亮度值所对应的区域,就被划分到其对应的类别中。这种算法简明、直接,能将大多数像元划分到一个类别。缺点是当类别较多时,各类别所定义的区域容易重叠。
平行六面体将用一条简单的判定规则对多光谱数据进行分类。判定边界在影像数据空间中是否行成了一个N维的平行六面体。平行六面体的尺度是由
标准差阈值所确定的,而该标准差阈值则是根据每种所选类的均值求出的。
在多类地物识别时,常采用某种统计方法建立起一个判别函数集,然后根据这个判别函数计算各待分类样本的归属概率,样本属于哪一类的概率最大就判别其属于哪一类,这就是最大似然法。最大似然法是根据训练样本的均值和方差来评价其他像元和训练类别之间的相似性,它可以同时定量地考虑两个以上的波段和类别,是一种广泛应用的分类器,但是这种算法的计算量较大,同时对不同类别的方差变化比较敏感。
(4)最小距离法
最小距离法是一种原理简单,应用方便的分类方法,它利用训练样本中各类别在各波段的均值,根据各像元离训练样本平均值的距离大小来决定其类别,其在遥感分类中应用并不广泛,主要缺点是此方法没有考虑不同类别内部方差的不同,从而造成一些类别在其边界上的重叠,引起分类误差,因此需要一些更有效的测量距离的方法。
(5)马氏距离法
是一个方向灵敏的距离分类器,分类时将使用到统计信息,与
最大似然法有些类似,但是她假定了所有类的协方差都相等,所以它是一种较快的分类方法。
(6)二值编码分类法
根据波段值落在均值的上或下方,把数据波谱和端元波谱编码为0或1,异或逻辑函数用来将每种编码后的参考波谱同编码后的数据波谱进行比较,生成一副分类影像。
(7)波谱角填图分类法
是一个基于物理的波谱分类法,它是用N维角度将像元与参考波谱进行匹配,此方法将波谱看成是空间中的矢量,矢量的维数就等于波段的个数,通过计算波谱间的角度,来判断波谱间的相似程度
(8)费歇尔线性判别法
费歇尔线性判别法是一种应用广泛,具有较高判别能力的多元逻辑概率判别方法,基于费歇尔线性判别法,结合实际数据,构建了高校财务风险判别指标体系、建立了费歇尔线性判别模型,并进行实证检验。
特点
监督分类的主要优点如下:
(1)可根据应用目的和区域,充分利用先验知识,有选择地决定分类类别,避免出现不必要的类别;
(2)可控制训练样本的选择;
(3)可通过反复检验训练样本,来提高分类精度,避免分类严重错误;
缺点如下:
(1)其分类系统的确定、训练样本的选择,均人为主观因素较强,分析者定义的类别有可能并不是图像中存在的自然类别,导致各类别间可能出现重叠;分析者所选择的训练样本也可能并不代表图像中的真实情形;
(2)由于图像中同一类别的光谱差异,造成训练样本没有很好的代表性;
(3)训练样本的选取和评估需花费较多的人力、时间;
(4)只能识别训练样本中所定义的类别,若某类别由于训练者不知道或者其数量太少未被定义,则监督分类不能识别。