英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
一种基于空间邻域信息和组合分类器的新的半监督高光谱图像分类方法
摘要:在半监督高光谱图像分类的过程中,训练样本的空间邻域信息被广泛应用于解决小样本规模的问题。但是,未标记样本的邻域信息通常被忽视。在本文中,我们为高光谱图像的半监督分类提供了一种新的算法。在这个算法中,为了增强确定选定的未标记样本的类别标签的分类能力,利用分类器来组合空间邻域信息。这个算法有两个关键点:(1)正确的标签应出现在未标记的样本空间附近(2)分类器的组合可以得到更好的结果。两种分类器多项逻辑斯蒂回归(MLR)和K最近邻法(KNN)以上述方式组合在一起来进一步提高性能。用两个真实光谱数据集来评估所提方法的性能。结果表明该方法对高光谱分类是有效的。
- 介绍
由于光谱范围宽、高光谱分辨率和连续的光谱曲线等特殊优势,高光谱遥感影像已被广泛应用于地球观测。但是,高光谱遥感技术的发展也带来了巨大的挑战。(1)高维数据往往包含冗余信息,这增加了计算量并导致了HUGES现象。他们也很容易被噪声和水的吸收影响。(2)获得
标记的训练样本通常十分昂贵、困难并且耗费时间。近年来,新的判别方法如人工免疫网络(AIN)、支持向量机(SVM)、DNA的计算、极端学习和最小生成树林(MSF)等等,已经被提出了。用来解决遥感图像的前述的两个困难。但是,在高光谱图像分类中,尤其是有限制的小的训练集时,传统的分类器很难提供满意的性能。这个观察结果在没有显著代价的情况下,提高了分类器的能力,促进了半监督学习的思想。总的来说,半监督学习由5种不同模型组成:生成模型、基于图形的方法、直推式支持向量机(TSVMS)、半学习方法和多视图学习。
半监督学习方法的最主要问题是如何选择最有帮助的未标记的样本和如何决定这些新选择的样本的类别标签。这篇文章中的BT方法被应用于选择最有用的无标签样本。它可以大大减少
计算时间和提高算法的效率。首先,标签仅仅是通过初始的分类图估计的。但是,一小部分的初始标记样本,概括性差,使分类问题十分困难。一种改进的BT方法,称为MBT,是由分类(LORSAL)和分割(LORSAL-MLL)集合而成,并导致了两种新方法主动学习,称为LORSAL-AL和LORSAL-MLL-AL。未标记的样本被用来提升类分布的估计精度。通过先使用空间多级算法使得到的分类结果更加精确。Beguuml;m提出了一个可以嵌入任何AL方法的策略,这个策略可以确定最有益的样本和减少整体成本。随着光谱信息和空间信息的结合在遥感图像分类中的广泛应用,分类准确性得到明显提升。因此,判别的方法可以减少维数周期因为他们只需要更少的训练集。
本篇文章提出了一个新的方法来确认未标记样本的标记。这个方法可以用来减少基于空间邻域信息和组合分类器的半监督分类方法中对于样本选择的难度。“标记样本的空间邻域信息”以4邻域或者8邻域为基础。它通常被应用于半监督学习过程。但是,被选择的未标记样本的空间邻域信息却很少在样本标记的判定过程中使用。当每个像元的类别已知时,则所有像元都认为是训练样本。未标记样本的标记必须和8邻域像元的其中之一相同。当初始训练样本数目较少时,未标记样本的标记应该和出现在邻域附近的训练样本之一相同。但最邻近的训练样本或许不是正确的标记。所以对于分类器来说,最终的标记由分类器和附近训练样本的信息来判断是有益的。如果分类器分配的标记与附近训练样本分配的标记相一致,则可以被当为正确的训练样本。
目前,支持向量机(SVM)(Schouml;lkopf和Smola,2002),多元logistic回归(MLR)(Bouml;hning,
- 和集成分类(EC)(Du等,2012)被广泛使用。它仍然有需要讨论最终标记是否只由一个分类器决定。所以,为了样本选择的准确性,多项逻辑斯蒂回归(MLR)和K最近邻法(KNN)被结合在一起。
本文的其余部分安排如下。第二节介绍了所提出的半监督自学习方法。第三节给出两个真实高光谱图像的分类结果。这两幅图是由机载可见光红外成像分光计(AVIRIS)(Green等人,1998)和反射光学光谱分析成像系统采集的。最后,第四节是总结全文并概述一些未来可能的研究路线。
- 分类方法
首先,我们定义在本文中使用的符号。设表示K级标记的矢量;是一个用来索引一幅图像中n个像元的整数集;表示图像的d维特征向量;是一个标记的形象,D是搜索半径L是初始训练样本每个级别的数目。
2.1基于BT选择信息最丰富的未标记样本
在本文中,BT算法被用来获得信息最丰富的未标记样本,并且先验概率密度来构建一个数据集。这极大地提高了运转效率和减少了未标记样本的添加量。BT技术的关键是未标记样本的多样性。它能获得每个类别先验概率的最高的两个可能性之间的最小差异。许多实验证明BT算法能很好地完成这个任务。
2.2基于空间邻域信息标注未标记样本(SNI)
初始的分类图可以作为先验知识,但如果未标记样本的类别标记仅由分类图决定的话,会很难保证满意的精度。多普勒第一定律表明地理表面上所有属性值之间是相互关联的,但更近的要比远距离的更加密切。这个定律还给了我们一个启示,同一类的物体应该在同一区域。并且未标记样本的标记最有可能的应该与空间邻域的区域内已有的训练样本相同。在本文中,SNI-unL是为了帮助分类器标记被选择的未标记样本。这是第一个创新点。详细步骤如下:
Step1:圆形邻域(CN):初始样本的每个类别的数目特别少。根据经验我们发现,4邻域和8邻域对于搜索有效样本来说太小了。为了搜索更好的D需要一个更大的搜索范围。本文中,我们选择一个圆形区域,这个区域把选择的未标记样本作为训练集中心。圆形区域便于调节搜索半径D的大小来找到最优的一个,并且可避免由于4邻域或8邻域不同所产生的影响。
Step2:空间邻域信息(SNI):通过2维欧氏距离在圆域内的未标记样本选择较近的训练样本。圆域中的被选择的训练样本被做成统计图,并生成一个可能标记集。在这个标记集中可以找到由分类器给出的未标记样本的标记。分类器给出的标记被认为是正确的,如果条件不满足的话,则去除这个未标记样本。不同规格的图像应该对应不同大小的邻域。图像1展示如何建立邻域和如何采用空间邻域信息。
2.3基于MLR和KNN的分类器结合
在半监督学习的每个周期,MLR这个由Bouml;hning(1992)开发的分类器被用来为每个级别的先验概率建模。先验概率就是每个像元属于每个级别的可能性,它通过BT方法被用来选择信息最多的未标记样本和获得最终的分类图。
MLR分类器如下所示:
(1)
其中,是输入的函数,通常被称为特征。应当注意的是,函数h可以是线性的或非线性的。为了获得更好的结果,核心被广泛应用用来提升转换空间的数据可分性。在本文中,我们使用在高光谱图像中广泛使用的高斯径向基函数核。是逻辑斯蒂回归是每个级别l 1的特征值的参数。我们用LORSAL来获得。
由于MLR分类器提供的分类图中每个级别的初始训练样本数目较少,所以很难测试未标记样本的标记是否正确。只从一个分类器得到的结果有时会发生错误。MLR是一个合适的分类器但并不能在只有少数初始样本的情况下获得好的模型参数。本文中,MLR与KNN相结合来提高分类器性能。
SVM分类器通常在边缘位置表现差,但有人指出,SVM和KNN结合可以克服这个问题并且提高了多级分类器的性能。这说明KNN可以有效分类类别边界的样本,因此,MLR需要边界信息而KNN可以满足这个要求。所以我们让MLR与KNN结合,实验表明性能很好。
图2显示MLR和KNN融合方式的具体过程和未标记样本的最终标记的确定过程。当在可能标记集中从分类图得到的两个分类器标记一致时,或者可能标记集里只有一个分类器标记,我们就用B方式来标记未标记的样本。如果两分类器在可能标记集里不相同或者都没有出现,则表明分类器的组合没能力决定现在的未标记样本的标记。一些很难确定的未标记样本被放回来保证选择的未标记样本集的高精度。在接下来的周期,这些未被选择的未标记样本或许会被确定下来。
(2)
最后,为了突出整个实验过程,图3展示了整个半监督学习方法的详细描述。
- 实验结果
2.1数据集
众所周知,一个好的算法应该适合不同情况。这两个数据集满足这个要求并且已经被广泛用于测试高光谱数据分类算法的准确性。AVIRIS数据集的使用总是会遇到混合像元、每个级别的标记像元数目的不平衡和基于光谱的不可分离性引起的分类问题。ROSIS数据集的使用总会遇到像地图上的物体分布不系统不规则和难以区分裸土和草地的挑战。初始训练样本从每次级别的测试数据集随机选取,而最终的结果则是在得到10个独立的蒙特卡洛后平均得到的。
- 这个AVIRIS印度松树数据集是1992年在西北印第安纳印度松树区的AVIRIS传感器收集的。这个数据集由145个样本形成145行和224个光谱宽度在0.4-2.5的光谱通道。由于噪声和水的吸收,有22个辐射通道被去除。图4展示了一个AVIRIS数据集的假彩色的图像,也展示了一个由10366个样本、16个相互区别的地面实况类别的地面实况图。
- ROSIS帕维亚大学的高光谱数据集是通过意大利的帕维亚大学的城市上空的ROSIS光学传感器收集的。这个数据集由340个样本形成610行和103个通道宽度在0.43-0.86的光谱通道。图5展示一个假彩色合成的ROSIS场景,并展示了一个由42776个样本和9个相互排斥的地面实况类组成的试验区。
2.2合适的搜索半径D的影响
对于提出的算法,有个关键问题就是如何确定合适的搜索半径D,这会影响精度和选择的未标记样本的数目。本文中,我们进行实验来找到适合AVIRIS印度松树集和ROSIS帕维亚大学数据集的最佳参数D。
图6(a)-(c)是AVIRIS数据的结果。当每类初始训练样本数目为5,10,15和搜索半径d是从1到6时,则认为d=4或5。图6(d)-(f)是ROSIS数据的结果。当每类初始训练样本数目为5,10,15和搜索半径d是从5到25时,则认为d=10.经证明合适的D参数主要由图像数据大小决定。当图像大小已知时,D的值是稳定的。
2.3对比实验
在这一部分,列出三组对比实验来解释各种问题。
- 实验1:空间邻域信息的影响。 如图7所示,当未标记的样本只通过MLR的分类图来标记时,迭代越多精确度越低。主要原因是一大部分的未标记样本的标记是错误的。当MLR中使用SNI-unL时,表现变好了。这实验证明SNI-unL对分类器是有益的。
- 实验2:分类器组合的影响。 表1展示出当步骤1中的AVISIS数据集的搜索半径增加时的整体精度和Kappa系数。当每个级别的初始训练样本数目L是5,10,15。列出了3种用来比较的情况:MLR、KNN和两者的融合。一些重要的规则在表1展示:(1)当每个级别的初始训练样本数目L固定时,整体精度和Kappa系数开始增加,然后随着步骤1的搜索半径D的增加开始下降。(2)当搜索半径D固定时,随着初始训练样本数目的增加,整体精度和Kappa系数越来越高。(3)所有情况中的最佳分类结果是当D=3或4 (4)当MLR和KNN通过提出的方法结合时达到了最好的性能。(5)当MLR和KNN通过圆域与本地位置信息结合时,一些显著的结果也可以实现。
为了表达三种方法直观上的差异性,图8展示了通过相同的D和不同的L(D=4,L=5,10,15)经过30次迭代后得到的最好的分类图。表2展示随着步骤5中搜索半径D的增加ROSIS数据集的整体精度和Kappa系数。每个级别的初始训练样本L是5,10,15.3种不同情形进行比较,一些重要的规则展示在表2.(1)每个级别的初始训练样本数目L固定时,整体精度和Kappa系数开始增加,然后随着步骤5的搜索半径D的增加开始下降。(2)当搜索半径D固定时,随着初始训练样本数目的增加,整体精度和Kappa系数越来越高。(3)当MLR和KNN通过提出的方法结合时达到了最好的性能。(4)当MLR和KNN通过圆域与本地位置信息结合时,一些显著的结果也可以实现。这4点与AVIRIS数据一样。(5)所有情况中的最佳分类结果是当D为15或20左右。
为了表达三种方法直观上的差异性,图9展示了通过相同的D和不同的L(D=10,L=5,10,15)经过20次迭代后得到的最好的分类图。
-
实验3:与其他算法的比较。 在这个部分,我们采用基于标记样本空间邻域信息的半监督分类方法作为比较算法来淘汰SNI-unL。图10(a)-(c)展示AVIRIS数据的比较结果,搜索半径d为4;(d)-(f)展示ROSIS数据的比较结果,搜索半径是10.当每个级别初始训练样本数目是5,10,15时,SNI-unL表现的比SNI-L要好。同样的结论可以通过这两个数据集得到。图11表示在以“MLR KNN SNI”方式进行10个独立的蒙特卡罗的结果平均后全部训练样本数(标记和未标记的)。我们每次从整个图像随机选择训练样本,图10(a)-(c)和图11(a)告诉我们,在AVIRIS中,每个级别的初始训练样本数是5,10,15,在10次迭代后,整体精度到底70%,80%和85%。但是,所有样本数小于1000。当迭代次数达到3
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[31976],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。