英语原文共 8 页
基于DCGAN的深光谱空间特征提取方法在高光谱图像检索中的应用
陆晨,张静,席良,李嘉峰,李卓
1北京工业大学信号与信息处理实验室,北京100124
2北京电动汽车协同创新中心,北京100124
zhj@bjtimes;t.edtimes;.cn
摘要——高光谱图像被表示为图像立方体,它将相同的地面物体成像,从紫外到微波范围有几十到几百个光谱带。近年来已经探索了用于高光谱图像的基于内容的图像检索(CBIR)。然而,提取高度描述性的特征以有助于改善高光谱图像检索的性能仍然是一个关注和挑战性的任务。目前,深度学习是机器学习的一个新的研究领域,它可以通过使用多层非线性处理单元的级联来提取更有效的深度特征。本文提出了一种基于深度卷积生成对抗网络(DCGAN)的高光谱图像检索的深谱 - 空间特征提取方法。首先,通过从高光谱图像中选择手动纯像素来提取光谱矢量。然后通过用一位(1BT)变换减小高光谱图像的维数后手动选择来自主带的纯像素的相邻像素来提取空间矢量。通过使用矢量堆叠(VS)方法将光谱矢量与空间矢量组合来获得作为训练样本的频谱空间矢量。训练DCGAN模型后,提取深谱空间特征,进一步应用于高光谱检索。在我们的方法和其他三种最先进的方法中进行实验,包括使用改进的自动像素纯度指数(APPI)的端元提取,光谱和空间特征提取,以及使用端元感应算法(EIA)的端元特征提取。 AVIRIS数据的实验结果表明,我们的方法可以获得更高的高光谱图像检索精度,进一步证明我们提取的深谱空间特征具有更强的描述能力。
关键词——高光谱图像检索; 深度卷积生成对抗网络(DCGAN); 深谱空间特征; 一位变换(1BT); 纯像素
一、导言
近年来,成像光谱仪遥感技术是上世纪末地球观测领域的一次重大突破,它从数百个窄波长范围的电磁波谱中获取高光谱图像[1,2]。目前,作为数字地球建设的基础数据,高光谱图像被广泛应用于军事,农业,林业,地质,矿产资源等领域[3,4]。随着高光谱成像技术的快速发展,高光谱图像的数量急剧增加,如何快速准确地为用户找到满意的图像已成为高光谱图像检索的迫切任务之一。
在高光谱图像检索中,检索精度主要取决于从图像中提取的特征的描述能力。现在最多的高光谱图像检索方法利用视觉或光谱特征来找到相似的图像。例如,Li等人。利用Dotimes;glas-Petimes;cker算法(DP)提取光谱曲线,通过比较光谱曲线上特征点的距离来计算相似距离[5]。实验结果表明,该方法可以有效提高检索速度。 Veganzones等人介绍了一种使用光谱和空间特征的基于内容的图像检索方法[6]。该方法的精确回归曲线表现出对特征选择和相应距离的良好响应。在我们之前的工作中,端部成员被用作光谱特征,通过使用改进的自动像素纯度指数(APPI)提取,并且利用光谱信息发散光谱和角度匹配(SID-SAM)混合测量方法[7]测量相似距离。我们的方法的精度比可以达到0.7971。虽然现有方法已经取得了一些成果,但由于高光谱图像的复杂和三维数据,仍然需要提高高光谱图像特征的描述能力。
深度学习是机器学习领域的最新研究,为高光谱图像检索带来了新的机遇。一些研究人员采用深度学习网络,如深度信念网络(DBN),卷积神经网络(CNN)从高光谱图像中提取深部特征[8,9],这在大规模标记样本的条件下表现出优异的性能。然而,由于高光谱图像从包括可见和不可见波段的数百个窄波长范围的电磁波谱中获取场景的光谱,因此有限的人类视觉系统使得难以获得标记的样本。最近,作为最流行的深度学习方法之一,深度卷积生成对抗网络(DCGAN)可以在标记数据很少情况下进行无人监督(没有标记的训练样本的学习)和监督(用标记的训练样本学习)的情况下有效地学习图像特征[10]。基于高光谱图像的特点,DCGAN可以为有限数据提取更强的高光谱图像特征描述能力提供新的思路[11]。
本文提出了一种基于深度卷积生成对抗网络(DCGAN)的高光谱图像检索的深谱 - 空间特征提取方法。首先,通过从高光谱图像中选择手动纯像素来提取光谱矢量。然后通过用一位(1BT)变换减小高光谱图像的维数后手动选择来自主带的纯像素的相邻像素来提取空间矢量。通过矢量堆叠(VS)方法将光谱矢量与空间矢量组合,获得作为训练样本的谱空间矢量。训练DCGAN模型后,提取深谱空间特征。为了证明深谱 - 空间特征的优越性,在高光谱图像检索应用中比较了其他三个最先进的特征。在测量具有欧几里德距离的查询图像和数据库图像之间的相似性之后,将前N个图像按降序排序作为检索结果。与我们以前的工作中的手工特征不同,在这项工作中从高光谱图像中提取深度特征以进行高光谱检索。众所周知,深层特征是比传统手工特征更具抽象性的高级特征,具有更强的描述能力。此外,通过同一网络同时提取深谱空间特征,这与我们以前工作中与其他特征一般提取的光谱特征明显不同。这种方法可以有效地避免通过这种方式调整不当引起的误差。
本文的其余部分组织如下:第二部分阐述了如何利用训练的DCGAN模型来提取高光谱图像的深度光谱空间特征。 在第III节中,深光谱空间特征被应用于高光谱图像检索。 实验结果在第IV节中分析。 结论见第五节。
二、用DCGAN进行深谱光谱空间特征提取
高光谱图像不仅包括视觉特征,还包括最重要的光谱特征和空间特征。像素的光谱包含用于区分不同种类的地面类别的重要信息,空间信息是相邻区域中像素的统计数据,这降低了类内方差[12]。光谱矢量和空间矢量已被证明在描述高光谱图像方面具有重要意义[13]。 Alec Radford [14]提出的DCGAN由发生器和鉴别器组成,它具有无监督的大容量学习。
与普通的二维图像不同,高光谱图像是三维数据,不能直接用DCGAN训练。因此,考虑到高维度和丰富的光谱信息,DCGAN的深度光谱空间特征提取分为三个部分:(1)从高光谱图像中获得光谱空间矢量。首先,通过从高光谱图像中选择手动纯像素来提取光谱矢量。然后通过用1BT变换降低高光谱图像的维数,手动选择主带的纯像素的邻近像素,提取空间矢量。通过使用矢量堆叠(VS)方法组合光谱和空间矢量来获得光谱空间矢量。 (2)DCGAN模型培训。用频谱空间矢量作为训练样本训练DCGAN模型,然后使用自适应矩估计(Adam)算法进行优化。 (3)用DCGAN提取深谱空间特征。首先,像素的样本取自具有滑动窗口的高光谱图像。光谱矢量的采样像素直接从高光谱图像中提取。然后,空间矢量和光谱矢量的提取方法与第(1)部分相同。最后,用经过训练的DCGAN提取深谱 - 空间特征。提取流程图如图1所示。
图1.深谱 - 空间特征提取的流程图
A.提取光谱空间矢量
DCGAN模型以联合监督和无监督的方式进行训练。因此,有必要获得标记数据。由于高光谱图像是三维数据,因此不能直接用深度网络进行训练。此外,高光谱图像通常包含许多土地覆盖类,这使得难以标记整个图像。要解决此问题,请手动选择纯像素以进行标注。从相同类别的土地覆盖中的图像获取纯像素,其是最光谱独特或纯净的。也就是说,纯像素的光谱矢量和空间矢量是高光谱图像中最重要的信息。因此,我们将组合纯像素以形成光谱空间矢量作为每个土地覆盖类的训练样本。光谱空间矢量提取的过程如图2所示。接下来,我们将介绍光谱和空间矢量提取的详细过程。
图2.光谱矢量和空间矢量的组合
通过从图像手动选择纯像素直接提取光谱矢量。 例如,首先,用红色框选择高光谱图像的相邻位置纯像素,参见图3(a)中的河流,土壤和植物。 然后在图3(b)中放大红色框,并用图3(b)中的蓝色框固定纯像素。 最后,蓝盒中纯像素的光谱矢量能够直接输出。 我们将纯像素连接成连续的光谱曲线。 河流和土壤的响应光谱曲线如图3(c)所示。
可以如下步骤获得空间矢量。 首先,计算图像带的1BT表示。 然后选择三个结构最好的带图像。 最后,提取纯像素的Ktimes;K相邻像素的空间矢量。
步骤1:1BT变换是一种低复杂度和高效率的方法,非常适合大体积的特征,喜欢高光谱图像[15]。 基于1BT的图像表示主要用于视频处理中的块运动估计[16,17],因为它可以很好地捕获图像的整体结构信息。
河流 土壤 植物
(a)河流,土壤和植物的纯像素
河流 土壤 植物
(b)河流,土壤和植物的纯像素
(c)河流和土壤的光谱曲线。
图3.光谱矢量的提取
在本文中,利用1BT方法选择与结构良好的带最不相似的三个图像带作为主带。
首先,使用17times;17大小的滤波器内核K(i,j)来过滤带图像,其定义如下:
然后通过以下方式获得一位带图像B(i,j):
其中IF(i,j)是图像带I(i,j)和(i,j)的滤波形式用作空间坐标。
步骤2:为了确定频带的结构和信息内容,在水平和垂直方向上计算1BT中的空间位转换(从1变为0,反之亦然),转换的总数A(l)in l波段的1BT可以表示为:
其中B1是带l的1BT图像,聠表示布尔异或操作,并且(i,j)是空间坐标。 通过比较A(1)的值,选择前三个结构良好的波段作为主波段而不是全波段。
步骤3:在三个主要频带中选择纯像素的Ktimes;K相邻像素作为空间矢量。 通过这种方式,可以获得光谱矢量和空间矢量。
在获得纯像素的光谱矢量和空间矢量之后,使用矢量堆叠(VS)方法将光谱矢量与空间矢量组合以形成光谱 - 空间矢量作为训练样本。
B. DCGAN的培训
由于没有用于高光谱检索的公共数据集和人类视觉系统的限制,因此难以获得大量标记样本。 DCGAN被认为是出色的表现。一方面,卷积网络可以有效地提高判别网络的特征学习能力;另一方面,当标记数据稀缺时,网络表现出良好的收敛性,网络较浅,参数较少。 DCGAN包括两部分,即发生器和鉴别器。发生器网络由一系列反卷积层组成,其输入是100维均匀分布Z.Z被重新整形为4times;4times;1024图像,通过四个反卷积层获得64times;64times;3图像。鉴别器网络由一系列卷积组成。在鉴别器中,输入图像的维数为64times;64times;3,输出是通过四个卷积层和一个完全连接层的概率值,用于确定实际训练数据的概率。发生器和鉴别器的结构如图4所示。
对于步幅2,卷积核的大小为5times;5,所有权重均从零中心正态分布初始化,标准偏差为0.02。发生器由一系列反卷积层组成,其输入是100维均匀分布Z.BN(批量归一化)和LeakyReLU用于除输入层之外的整个网络的每一层。通道数量减半,图像尺寸从鉴别器中的前一层加倍,发生器正好相反。超过5000个样本用于训练DCGAN模型,批量大小和时期的值设置为64和60,总训练时间超过3小时。 DCGAN模型的详细培训分为以下几个步骤:
步骤1:使用tanh激活函数将所有训练样本标准化为[-1,1]:
步骤2:所有模型均采用小批量随机梯度下降(SGD)进行训练,最小批量为64.所有权重均从零中心正态分布初始化,标准偏差为0.02。
步骤3:通过使用发生器生成图像G. 首先,100维噪声矢量Z的均匀分布输入到生成器中,然后通过完整连接层将Z重新整形为4times;4times;1024维图像,最后在四次反卷积后生成图像。
步骤4:将生成的图像和训练图像分别放入鉴别器网络。 四卷积层和完全连接层用于输出概率值,用于判断输入样本是真实训练数据。
步骤5:在鉴别器中计算生成的图像和训练图像的丢失,并更新生成器和鉴别器中的变量。 损失可按以下方式计算:
其中h是来自pdata分布的训练样本,Z是从100维均匀分布中随机选择的。G是生成模型,D是判别模型。至于(5),简单地说,G被更新为愚弄D错误地判断生成的样本G(z),而D试图不被欺骗。
为了进一步提高模型的准确性,采用Adam算法对发生器和鉴别器模型的参数进行优化。通过梯度的第一矩估计和第二矩估计来动态调整每个参数的学习率[18]。 Adam优化器的过程包括以下步骤:
步骤1:假设()表示时间t处的随机噪声函数,最佳目标是在()最小时更新模型参数t的值。因此,我们首先使用噪声函数()的导数计算时间t处的梯度值。
的期望值和方差可以如下获得:
图4.发生器和鉴别器的架构
其中是第一个时刻,而是时刻t的的第二个时刻。 isin;[0,1]表示和的指数衰减率。为了估计下次的参数,我们需要修正和如下:
,表示在时间t的,的值。
步骤2:根据校正后的噪声梯度的期望值和方差,通过(8)更新时间t的模型参数,最后实现参数的优化。
其中D和H是默认值,通常= 0.001, = 10-8。
C.深谱空间特征的提取
实际上,可以利用高光谱图像中的每个像素的深度光谱空间特征提取来描述高光谱图像。但是,如果计算图像中的所有像素,则图像的特征尺寸将高达数十万。为了有效地降低特征维数并准确描述图像,我们选择一个mtimes;m滑动窗口来扫描步长为r的图像,可以用来从图像中取样像素,如图5所示。
图5.滑动窗口的视觉参考
通过使用矢量堆叠(VS)方法将光谱矢量与空间矢量组合来获得作为训练样本的谱空间矢量。通过使用4times;4池化窗口将该特征汇集在每一层中,将所有层的所有特征级联到矢量中,该矢量用作整个图像的内容的表示。通过这种方式,它不仅可以有效地减少特征维度,而且可以简化冗余空间信息的计算。
参考文献
[1] W. C. Chiou, “Dynamic descriptors for contextual cla
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。