位可伸缩的深度哈希与正则相似学习的图像检索和人的重新识别外文翻译资料

 2022-08-14 15:12:03

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


位可伸缩的深度哈希与正则相似学习的图像检索和人的重新识别

摘要-图像信息特征提取和学习有效的近似哈希函数是图像检索的两个关键步骤。传统的方法通常分别研究这两个步骤,例如,从预定义的手工特征空间学习散列函数。同时,以往的方法大都预设了输出哈希码的位长,忽略了不同位的显著性,限制了其实际的灵活性。为了解决这些问题,我们提出了一个监督学习框架,以产生紧凑和位可伸缩的哈希码直接从原始图像。我们提出了一个正则化相似学习的哈希学习问题。特别地,我们将训练图像组织成一批三个一组的样本,每个样本包含两个具有相同标签的图像和一个具有不同标签的图像。通过这些三重样本,我们最大化了汉明空间中匹配对和不匹配对之间的空白。此外,引入正则化项来加强邻接一致性,即,相似外观的图像应该具有相似的代码。利用深度卷积神经网络对模型进行端到端训练,同时对判别图像特征和哈希函数进行优化。此外,我们的哈希码的每一位都是不均匀加权的,因此我们可以通过截断无关紧要的位来操作代码长度。我们的架构在同类图像检索的公共基准上表现优异,并在监控中重新识别人的应用方面取得了令人鼓舞的成果。结果表明,所生成的位可伸缩哈希码具有较短的码长,较好的保留了码长识别能力。

索引词-图像检索,哈希学习,相似度比较,深度模型,人的重新识别。

1.介绍

随着图像或视频集合的快速增长,哈希技术在大规模图像检索[1]-[4]及相关应用(如监控中的人员再识别)中受到越来越多的关注。近年来,许多基于学习的哈希方案被提出,其目标是学习一种紧凑的、保持相似性的表示,使相似的图像映射到汉明空间中邻近的二进制哈希码。其中,有监督的方法[7]、[9]通过利用有监督的信息(如类标签)进行哈希学习,显示出了很大的潜力。

传统的基于监督哈希学习的图像检索系统通常涉及两个关键步骤。首先,对存储的图像进行编码,使用手工制作的描述符向量来捕获图像语义,以抵抗图像噪声和其他冗余信息。其次,哈希学习可以是一个点优化问题,也可以是一个双优化问题,从而在学习的汉明空间中保留点优化或双优化的标签信息。然而,以上两个步骤大多作为两个独立的问题来研究,结果并不令人满意。特征表示可能不适合哈希学习的目标。此外,手工制作的特性工程通常需要大量的领域知识和大量的调优。

另一方面,现有的哈希学习方法大多生成预设长度(如16位、32位或64位)的哈希码,如[5]、[7]、[12],但在不同的场景下往往需要不同长度的哈希码。例如,较短的代码有利于计算资源有限的设备(如移动设备),而较长的代码用于追求更高的精度。为了满足这些需求,一种传统的解决方案是以不同的位长存储多个版本的散列码,从而导致额外的计算和存储。在文献中,使用了几种位可伸缩的散列方法。它们通常以显著性下降的方式逐位生成散列码,即。,前一个位通常比后一个位更有意义,因此人们可以简单地从散列码[6]、[13]-[15]的顶部选择所需的位。然而,这些方法通常需要对嵌入的特征空间进行细致的设计,当压缩哈希码时,其性能会急剧下降。

图1 基于三元正则化相似度学习的实例。一组三重态样本(以固态日食为代表)被组织起来。每个三元组包含三个图像(由不同形状的点表示),其中只有两个具有相 同的标签。匹配对和不匹配对之间的空白在汉明空间中最大化,同时加入正则化

(由灰色虚线圆圈表示)来约束相似外观的图像具有相似的哈希码。

针对上述问题,本文提出了一种新的基于监督的位可伸缩的深度哈希框架1,并通过实例验证了该框架的有效性。利用卷积神经网络(CNN)建立原始图像数据与二进制哈希码之间的端到端关系,实现快速索引。此外,这些输出哈希码的每一位都根据其重要性进行加权,这样我们就可以通过截断不重要的位来控制代码长度。不需要额外的计算,就可以很容易地获得任意长度的散列码(小于原始码)。下面,我们将概述框架的主要组件并总结其优点。

(1)提出了一种基于三元模型的相对相似度比较方法。正如在[2]、[10]和[16]中所讨论的,triplet样例可以很好地捕获排序优化中的类内和类间变化。然而,在哈希学习中,相似表象的图像在汉明空间中也应该有相近的哈希码。因此,我们通过加入一个正则化术语来扩展基于三元组的相对比较,这个正则化术语的部分动机是最近提出的拉普拉斯稀疏编码[17]。图1说明了我们的配方。具体来说,我们将训练图像组织成大量的三重样本,每个样本包含三个图像,其中只有两个具有相同的标签。然后,对于每一个三元组样本,我们将哈希学习表示为一个联合任务,即使匹配对和不匹配对之间的相对距离最大,同时在汉明空间中保持图像的邻接关系。

(2)我们采用深度CNN架构从输入图像中提取识别特征,卷积层、最大池操作符和一个完整的连接层堆叠在一起。在前一层的基础上,我们增加了一个全连接层和一个类tanh层来输出二进制哈希码。在我们的模型的顶部,设计了一个元素层次来衡量每个二进制的散列代码,以便进行位可伸缩的散列。在我们的深度模型中,哈希函数学习和特征学习通过反向传播联合优化。此外,所生成的位可伸缩散列码能够较好地保持随码长变化的匹配精度。

(3)为了处理大量的存储图像,我们以批处理的方式实现了我们的学习算法。在每一轮的学习中,我们首先从一个随机选择的子集(即然后使用随机梯度下降(SGD)方法进行参数学习。由于一个图像可以包含在多个三重样本中,我们计算的是图像的偏导数,而不是三重样本的偏导数。计算成本因此大大降低,它是线性的选定子集的图像。

本文对图像检索有三大贡献。i)首先,通过深度神经网络将特征学习和哈希函数学习相结合,提出的位可伸缩哈希学习能有效提高图像检索的灵活性。二是提出了一种新的提法。对于哈希学习,一般可以将其扩展到其他类似的任务。(iii)第三,我们在标准基准上的大量实验表明,所学习的哈希码很好地保持了实例级的相似性,并且优于最先进的哈希学习方法。此外,我们成功地将哈希法应用于监控中的人员再识别。这项任务的目的是通过几个互不重叠的摄像机来检索同一个体,在计算机视觉研究中得到了越来越多的关注。

论文的其余部分组织如下。第二节简要回顾了有关工作。第三部分介绍了我们的哈希学习框架,第四部分讨论了学习算法。第五部分给出了实验结果、比较和成分分析。

2.相关工作

近年来,哈希成为快速近似相似搜索的一项重要技术。一般来说,哈希方法可以分为两类:数据无关的和数据相关的。与数据无关的方法不经过任何训练,随机生成一组哈希函数,通常将哈希代码分散,以保持匹配精度[18]。示例包括对位置敏感的散列[19]及其变体[20],以及Min-Hash算法[21]。

图2 位可伸缩的深度哈希学习框架。下面板显示了神经网络的深层结构,它以原始图像为输入,用权矩阵生成哈希码。训练阶段如左上面板所示,我们使用基于三重相似度学习来训练网络。在右侧面板中给出了一个散列检索的例子,其中相似性是由汉明亲和度度量的。

另一方面,依赖数据的哈希方法侧重于如何从训练数据中学习紧凑的哈希代码。这些基于学习的方法通常包括两个阶段:i)将高维特征投射到低维空间,ii)将生成的实值表示量化为二进制代码。无监督方法利用未标记数据学习哈希函数,将样本的邻域关系从一定的度量空间传播到汉明空间[13]、[22]-[25]。例如,用谱哈希[13]构造L2距离的全局图,并在汉明空间中优化图的拉普拉斯代价函数。局部线性哈希[25]跟踪汉明空间中的流形结构,并通过对位置敏感的稀疏编码对这种结构进行优化。对于半监督[26]、[27]和监督方法[5]、[7]、[12]、[28]、[29],利用训练样本更丰富的相似信息(如成对相似或相对距离比较[29])来改进哈希学习。例如,Wang等人[27]提出了一个半监督的哈希框架,该框架最小化了标记数据的经验误差,同时最大化了超标记和未标记数据的方差。Norouzi等人提出了基于潜在变量和铰链式损失函数的结构化预测的最小损失散列[12]。在[12]之后,Huang等人提出了在线哈希[28]来增量地更新哈希函数。列生成哈希[5]的目的是学习基于邻近比较信息的哈希函数,并基于大边缘原则保持数据关系。在[29]中,Norouzi等人也采用了基于三倍频域的有损增强推理模型,在图像检索和分类方面取得了很好的效果。然而,在每次迭代中,这种结构化预测方法的时间成本很大程度上取决于数据的规模和哈希码的长度。Liu等人提出了基于核监督哈希的[7]算法,该算法利用非线性核并结合基于三值的哈希函数学习。

利用深度学习技术提取特征和获取上下文关系,而不是使用手工制作的表示[30],在图像分类和对象检测[31]-[35]等各种视觉识别任务中显示出了巨大的潜力。最近,Wu等人提出了一种基于多尺度神经网络的学习排序框架,并在捕获细粒度图像相似度方面显示了良好的性能。大型图像分类数据库(即本模型使用ImageNet[31])。Xia等人提出了另一项相关工作,利用CNN进行监督哈希学习。他们首先对图像的两两相似矩阵进行分解,得到图像的哈希码,然后学习图像到码的映射函数。然而,由于矩阵分解操作,这种方法可能无法处理大规模数据。本文提出的方法在正则化三值格式和位可伸缩哈希生成两方面对上述方法进行了改进。

3. 位可伸缩的深度哈希框架

哈希学习的目的是寻找将p维实值特征向量xisin;Rp投影到q维二进制哈希码hisin;{minus;1,1}q上的映射函数h(x),同时保持每对的语义一致性。在本节中,我们将介绍我们的bit-scalabe深度哈希框架,如图2所示。而不是学习的哈希函数手工特征空间,我们将图像特征学习和散列学习集成到一个非线性变换函数phi;(·)将原始图像作为输入。此外,我们引入了一个权向量w = [w1,hellip;],wq]T来衡量输出哈希码的每个比特,表示每个比特在度量相似度时的重要性。在我们的框架中,cnn的深架构开发,共同学习phi;(·)和w。

我们将非线性哈希函数表示为参数形式:

h = sign(phi;(I)) (1)

其中符号(·)表示元素的符号函数,I为原始图像。与我们的模型不同的是,许多最先进的方法被设计来学习x处线性投影的散列函数符号(x处),其中x是手工制作的特征表示。对于权值w,我们利用加权的汉明亲和度[14]来衡量两个哈希码之间的差异,其表示为两个码之间一致性的线性组合:

其中w是其对角值表示为的对角矩阵。

加权哈希码在哈希学习中有几个独特的优点。(i)我们可以通过为不同的位分配不同的权值来产生更有效的哈希码,而不是平均对待每个位。(ii)通过截断与小权值对应的不重要bin,我们可以灵活地操作不同场景的代码长度(例如,适应计算资源)。(三)加权汉明距离可以自然退化为传统的汉明距离。

  1. 表达方式

我们将训练图像组织成三重样本,并将哈希学习问题作为正则化相似学习问题提出。每个三元组包含三个图像,其中只有两个具有相同的标签,另一个具有不同的标签。我们定义了一个嵌入在汉明空间中的最大边缘项来最大化匹配对和不匹配对之间的边缘,这类似于[2]中的细粒度图像相似模型。直观地说,这个术语保证了所学习的哈希代码能够根据标注的语义保持图像的排序顺序。

设是一组三联体单位,其中Ii和I I是两个具有相同标签的图像,Ii和Iminus;I是两个不匹配的图像,N是训练三联体的总数。让omega;表示散列函数的参数和h (2)isin;{minus;1,1} q表示图像二世的问哈希代码。为了简单起见,我们用hi代替h(Ii),用h i和hminus;i分别表示h(i i)和h(iminus;i)。基于三重样本,最大裕度项的损失函数可表示为:

其中为一个三重态的最大裕度损失。我们要求加权的汉明亲和力满足如下约束:

然后,我们有以下铰链式损失函数:

式(2)中定义了和,引入max算子和常数C,再次增强了离群点的鲁棒性,如SVMs中定义的那样。我们在整个实验中设置C = - q/2。除了保持图像的等级外,我们还鼓励使用学习的哈希码来强调原始外观空间中图像的邻接关系。因此,我们定义如下正则化项:

其中Sij表示一个图像对(Ii, Ij)在训练集上的相似度,如[17]中介绍的,当两个图像相似时,Sij为大,当两个图像不相似时,Sij为小。The 的 方式 指定 Sij 将 讨论 在 Sec. V. Following [17], 我们定义对角度矩阵U 。Laplacian矩阵[37]可以定义为L = Uminus;S[17],我们可以将正则化项Eq.(6)改写为以下形式:

其中, M为用于生成D的图像总数,tr(·)为跟踪操作符。

结合Eq.(5)和Eq.(7),我们得到以下基于正则化三元组的比较模型:

由于哈希码是二进制的,上述目标是不连续的、不可微的,因此很难通过梯度下降法进行优化。为了解决这个问题,我们提出了符号函数的近似o(v):

beta;是一个调优参数控制平滑。当beta;= 2,Eq。(9)是一个标准的双曲正切函数。当beta;很大,情商中的激活函数,(9)接近一个符号函数。本文从2beta;增加到1000的迭代学习。在测试阶段,采用符号函数作为激活函数,得到离散散列代码。

对于o(v),哈希码hi可以近似为

我们进一步定义来近似,如下所示:

其中M(·,·)为近似哈希码之间的加权欧式距离:

最后,正则化三元基学习模型的连续逼近为:

当。

二进制哈希的一个明显优点是可以采用按位的XOR或查找表来测量哈希代码之间的距离。即使提出的加权哈希使它不可能使用这种有效的搜索策略,我们开发了一种基于查找表(LUT)的方法来快速返回哈希代码之间的加权亲和力。为简单起见,让l表示哈希码的长度。我们可以设置一个长度为2l的查找表,它等于两个散列代码之间的候选XOR结果的总数。由于哈希权值是在搜索阶段预先训练和固定的,因此可以预先计算每个XO

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235382],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。