一种新颖的用于图像识别的局部和二阶特征编码网络
陈伯恒 李杰 李刚 魏伟 马碧云
广州市天河区吴山路华南理工大学电子与信息工程学院广东广州510641 中国
文章信息
文章信息文章历史:
2017年6月14日收到
2017年9月24日修订
2017年10月30日接受
2017年11月9日在线提供
摘要
局部聚合描述符向量(VLAD)是图像分类和图像检索中非常受欢迎的一种特征编码方法。 最近,原来的VLAD方法扩展到一个称为的端到端模型
NetVLAD。NetVLAD层很容易嵌入到深度神经网络中,并且可以通过反向传播算法进行训练。尽管NetVLAD模型在许多图像数据库中取得了明显的分类结果,但NetVLAD方法中的歧视尚未充分利用。在本文中,为了设计更具辨别性的特征编码网络,提出了一种新颖的局部二阶VLAD网络(LSO-VLADNet)。首先,我们设计一个局部二阶VLAD编码方法。 其次,获得所有新设计的层的反向传播函数。第三,将新的特征编码方法扩展到端到端特征编码网络,该网络可以用深度卷积神经网络进行联合训练以进行视觉识别。一些实验表明,新设计的网络比原来的NetVLAD有显着的改进。还将对所提出的模型和其他现有技术方法进行一些实验性比较,以验证所提出模型的有效性。
copy;2017 Elsevier Ltd.保留所有权利。
关键词:深度神经网络 特征编码网络 本地化和二阶VL 端到端 图像识别
- 说明
近年来,深度学习模型已经成为解决计算机视觉和图像处理问题的一个非常有效的工具。 与浅层学习方法相比,深度学习模型有两个主要优势:(1)端到端的训练方式可以为特定的计算机视觉任务学习最优权重,如图像分类[1-3],超分辨率[4,5],语义分割[6,7] - 识别[8,9]和物体检测[10,11]; (2)从大尺度图像数据集学习到的深层结构特征是原始图像的优秀表现。 与传统的手工特征(SIFT [12]特征或HOG [13]特征)相比,所学的深度特征可以显着提高性能。最近,受到端到端模型和深层特征优点的启发,一些作品将传统的机器学习方法扩展到端到端模型,并将新的结构层嵌入到卷积神经网络(CNN)。这些新的结构CNN可以继承原有机器学习方法的优点,并且比原来的CNN具有更好的性能。代表作品包括:何等人[14] 结合空间金字塔匹配方法[15]和CNN来设计一个最先进的图像分类和检测模型。郑等人. [16]将平均场算法作为递归神经网络(RNN)处理,然后他们联合训练新的结构RNN和深度CNN以获得出色的图像分割结果。Wang等人 [17]开发了一种端到端的学习算法,用于同时优化字典对分类器[18]和CNN。Wang等人 [5]结合稀疏编码领域的专业知识和深度学习的优点,实现了最先进的图像超分辨率结果。Wang等人 [19]引入了一步式稀疏推理模块来消除JPEG压缩图像的伪像。传统机器学习模型的优化和计算过程可以为设计新的结构深层网络带来启发,这些新层次使得深度学习模型具有可解释性。
在图像分类中,特征编码[20]是一个重要的模型,并在过去几年中得到了广泛的研究。 特征编码方法的核心思想是通过训练过的词典获得特征描述符的表示编码。流行的特征编码方法包括硬编码[15],软编码[21],稀疏编码[22],低秩稀疏编码[23],局部约束编码(LLC)[24],矢量局部聚合描述符 (VLAD)编码[25]和费希尔矢量(FV)编码[26]。传统的特征编码方法是无监督的; 因此,训练好的字典对于图像识别可能不是最优的,并且用于特征编码方法的SIFT [12]特征不具有强表示能力。受深度学习模式的巨大优势启发,Arandjelovic等人 [27]将传统的VLAD编码模型扩展到称为NetVLAD的端到端模型。他们选择了深CNN的最后一个卷积层的输出来馈送VLAD层。 整个网络通过反向传播算法训练所有参数。
尽管NetVLAD模型在许多图像数据集中取得了很好的分类结果,但是这种特征编码网络的判别能力还没有完全研究。 在这项工作中,为了设计一个比VLAD具有更多分辨能力的特征编码方法,提出了一种新颖的局部和二阶VLAD编码方法(LSO-VLAD)。LSO-VLAD可以进一步扩展为由后向传播算法训练的端到端模型(LSO-VLADNet)。
提出的网络与原有的NetVLAD相比,从三个方面提高了判别力。 第一个方面是权重系数。NetVLAD模型利用软分配编码作为权重系数。 在软分配编码中,特征和视觉词的高斯后验概率用于计算编码。然而,当特征与视觉词之间的距离较大时,不可能可靠地估计似然性。 这意味着软分配编码忽略了潜在的局部流形结构。 为了保持权重系数的局部编码结构,所提出的LSO-VLADNet利用局部软分配编码作为权重系数。新的结构局部软指配编码(LSAC)层是可微分的,本文得到了LSAC层的反传功能,因此LSAC层可以看作是一个新的网络层, 结束模式。 第二个方面是降维方法。NetVLAD模型利用主成分分析(PCA)方法获得图像的最终紧凑描述符。 在提出的网络中,我们使用[28]中的有限子空间方法来降维。这种有限子空间方法可以看作是1times;1卷积层,因此这种卷积层可以通过传统的CNN训练方法进行有效训练。 第三个方面是二阶统计信息。 最初的NetVLAD模型仅使用VLAD编码的第一阶统计量。受视觉分类中高阶信息的出色表现的启发[26,29],该模型结合了一阶和二阶统计量来提高分类性能。在所提出的网络中,VLAD编码的二阶统计量可以看作一个新的可微调激活函数层,因此二阶信息层可以通过反向传播算法与其他层联合训练。
在图像识别实验中,优秀的分类性能将证明新设计的LSAC层和二阶统计层的优势。 此外,一些图像分类实验表明,LSO-VLADNet明显优于LSO-VLAD,这证明了端到端训练的优势。值得注意的是,LSO-VLAD具有比FV-CNN更好的性能[30],它是一种视觉识别中的最先进的非端到端特征编码方法。 这意味着我们新设计的特征编码方法在视觉识别方面非常具有竞争力。这意味着我们新设计的特征编码方法在视觉识别方面非常具有竞争力。 在所提出的模型和其他现有技术方法之间的各种比较也将被给出以证明所提出的方法的有效性。
简而言之,所提出的网络有四个新的技术贡献:(1)所提出的网络使用本地化软指定编码层来实现局部编码结构和竞争分类性能; (2)将一阶和二阶统计层相结合,进一步提高整个网络的判别能力; (3)新颖的降维层确保学习特征具有低维和歧视性; (4)得到所有新设计的层次的反向传播模型,整个网络为以端到端的方式进行培训。
2.相关工作
由于LSO-VLADNet基于新设计的特征编码方法LSO-VLAD。 本节将回顾图像识别的特征编码方法的框架。 对于视觉识别,原始图像的特征也是一个重要因素,因此也将给出CNN特征的简要回顾。 最后,由于提出的网络与NetVLAD模型非常相关,因此将详细介绍NetVLAD模型。
2.1 特征编码框架
通常,特征编码框架有五个基本步骤:(1)提取训练图像和测试图像的特征。 (2)通过解决所有训练特征中的特定优化问题构建字典。 (3)通过训练词典计算所有特征的特征编码。
(4)通过汇集方法汇集编码。 (5)从集合向量中训练最终的分类器。 对于上述五个步骤,特征编码方法是该框架的核心组成部分,它将特征提取和特征共享联系起来,并极大地影响图像分类性能。 特征编码框架的流水线如图1所示。
图1.用于图像分类的特征编码框架的通用流水线
2.2 基于CNN的深层功能
图1中的图像特征可以是SIFT [12]或CNN特征。 由于CNN特征是图像的良好表现形式,因此最流行的算法使用CNN特征来表示图像CNN模型利用由多个卷积层组成的深层结构,汇聚层和非线性激活函数,从大规模ImageNet [31]日期集合中获得更多的抽象描述性特征表示。其他小图像数据集也可以通过从ImageNet预先训练的CNN获得最具代表性的特征。 预先训练的CNN最有用的特征是最后一个卷积层的特征和最后一个完全连接层的特征[30]。 对于特征编码网络,CNN特征是从预先训练的深CNN的最后一个卷积层中提取的。
对于输入图像Iisin;RStimes;Stimes;3,最后卷积层的提取特征可以表示为Fisin;ROtimes;Otimes;D,其中D是卷积滤波器的最终数量,O是 卷积特征。 F也可以认为是由M = Otimes;O深描述符组成的描述符集,描述符的维数为D.
2.3 NetVLAD模型
在NetVLAD模型中,描述符集Fi = {fi j} Mj = 1表示第i个图像的卷积特征(Ii,i = 1,2,...,N,N是图像的数量),并且 fijisin;RDtimes;1是Fi的第j个描述符。 使用K个聚类中心(视觉词){ck} K k = 1(ckisin;RDtimes;1)作为VLAD的词典。
对于第i个卷积特征Fi,最终的VLAD表示是一个Ktimes;D维向量,该向量可以表示为
V()= (1)
其中V()isin;是的VLAD向量,V()可以写为
V()= (2)
(2)中的子向量isin;是下面的数学表达式:
= (3)
其中alpha;ij(k)是fij和ck的权重系数。 原始的VLAD编码方法利用硬指派编码作为权重系数,而NetVLAD模型用软指配编码替代硬指派编码[32],软指派编码的表达式如下:
(4)
其中表示向量的范数,而beta;是一个参数(正常数),它用距离的大小来控制响应的衰减。软分配编码(4)将描述符fij的权重赋予视觉单词ck,与它们的邻近度成正比,但相对于其他视觉单词的邻近度。 通过一些简单的变换,(4)可以被看作是一个软 - 最大值函数。 从(1) - (4),获得NetVLAD层的最终形式,可以表示为:
() (5)
其中V()(k,d)是)(k = 1,2,...,K; d = 1,2,...)的第((k-1) ...,D),和分别是和的(d = 1,2,...,D)个元素。
最后,使用内部规范化[ 33 ]和L2规范化。产生最终的弗拉德向量用于图像分类。因为所有的netvlad模型层是可微的,这netvlad模型可以通过端到端的方式进行训练。完整的netvlad模型如图2所示。
图2.用于图像分类的NetVLAD的网络结构
3.拟议的LSO-VLADNet
在本节中,我们将详细介绍所提出的LSO-VLADNet的组成部分。 为了设计比VLAD更具辨别性的特征编码方法,提出了一种局部和二阶VLAD(LSO-VLAD)编码方法。 LSO-VLAD的每个组件都是可微分的,并且所有组件的反向传播函数都可以导出。 最后,我们将LSO-VLAD模型扩展为端到端模型(LSO-VLADNet),从而使整个模型能够通过反向传播算法进行训练。
3.1 局部软分配编码(LSAC)层
促进歧视的第一个因素是权重系数。 NetVLAD模型利用软分配编码(4)作为权重系数。 (4)可以被看作是属于视觉词的描述符的后验概率,通过定义:
P()= (6)
其中Z确保。当远离时,距离将是非常大的,并且可能性不能可靠地估计。
为了消除不可靠概率的影响,所提出的LSO-VLADNet使用以下局部软分配编码(LSAC)作为权重系数:
(7)
kisin;
L (8)
infin; 其他
其中表示基于距离个最近邻居视觉词的索引 (7)和(8),我们可以发现LSAC只考虑T最近邻编码,并强制其他编码为0.很容易看出(4)可以看到 作为(7)T = K时的特例。LSAC的好处是最相关的视觉语言是用来计算代码和无关的话被忽略,这消除了不可靠的概率的影响
式.(7)可以进一步写成
kisin;
(9)
- 其他
从(9)中,很容易看出以在分子和分母之间消除,得到以下表达式:
kisin;
(10)
- 其他
其中和.为了将(10)扩展到端到端模型,需要一些转换。 对于每个k(k = 1,2,...,K),该变换可以用以下三个表达式来描述:
= (11) kisin;
全文共22352字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13677],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。