英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
一种改进的用于行人重识别深度学习架构
摘要
此次工作中,我们提出了一种特征学习和相似性度量同步进行的行人重识别方法。我们提出了一种深层卷积架构,其中部分隐藏层专门用于解决重识别问题。给定一对图像组作为输入,输出两对图像相似度值,以此指明两个输入图像组是否为同一人。我们架构的新元素包括一个计算交叉输入邻域差异的层,它根据每个输入图像的中间特征捕获两个输入图像之间的局部关系。当前层输出的高级特征摘要由上一层区域特征计算得到,这些高级特征结果在之后的网络层进行集成。我们的方法在大数据集(CUHK03)和中型数据集(CUHK01)上的测试结果明显优于现有技术,且过拟合度低。我们还证明,通过在对小型目标数据集进行微调之前使用大数据集进行初试训练,即使在小型数据集(VIPeR)上,我们的网络也可以获得与现有技术相媲美的结果。
目录
1. 简介 1
2. 相关性工作 2
2.1 当前的重识别技术工作 2
2.2 用于重识别的深度学习 3
3.我们的工作 4
3.1绑定max-pooling的卷积层 4
3.2交叉输入邻域差异 5
3.3 区域汇总特征 6
3.4交叉区域特征提取 6
3.5 进一步获取图像之间的关系 7
4.特征可视化 7
5. 与其他深度架构的比较 8
6. 训练网络 9
6.1数据扩展 9
6.2 负数据提取 10
6.3微调 10
7. 实验 10
7.1 CUHK03 11
7.2 CUHK01 12
7.3 VIPeR 13
7.4 身体不同部位的分析 14
8. 总结 14
简介
行人重识别是在不同相机拍摄的图像中识别人物,或者使用单个相机不同时间拍摄图像上识别人物的问题。重识别是监视系统以及人机交互系统中重要的功能。同时重识别技术也是一个特别困难的问题,因为跨越不同视图的视点和照明大的变化可能导致同一个人的两个图像看起来非常不同或者不同人的图像看起来非常相似。一些例子参见图1。重识别的问题通常以同面部识别类似的方法处理。典型的重识别系统将两组图像作为输入,每个图像通常包含一个人的全身,并输出两个图像之间的相似性程度或者该对图像的分类相同(两个图像描绘同一人)或不同(图像是不同的人)。在本文中,我们依据这种方法,并使用一种新的深度学习网络将相似性得分分配给图像对。我们的网络架构包括两个新层:邻域差异层,用于比较一个输入图像的每个块中的卷积图像特征与在另一个输入图像中的附近块上计算的相同特征,以及后续层,其特征总结了每个块的邻域差异。我们网络的新卷积层使得基于CUHK03和CUHK01数据集测试结果明显优于大部分现有技术。我们还发现,我们的方法在小型训练集测试时过度拟合低。 CUHK01和VIPeR的结果证明了该网络在较小数据集上的有效性。
图1:我们在CUHK03上训练的网络的真阳性(第一行),误报(第二行)和真阴性(底行)的示例。 在补充材料中可以找到更多结果。
相关性工作
2.1 当前的重识别技术工作
通常,用于重新识别的方法包括两个组件:用于从输入图像提取特征的方法,以及用于跨图像比较这些特征的度量。研究重识别通常集中在找到一个改进的特征集合,或一种改进的特征相似性比较的度量方法,或它们的组合。寻找更好的用于学习的特征的基本思想是找到受光照,姿态和视点变化影响更小的特征。已使用的特征包括颜色直方图的变化,局部二值模式,Gabor特征,颜色特征和局部区域特征。差异比较方法的基本思想是找到从特征空间到新空间的映射,其中来自相同图像对的特征向量比来自不同图像对的特征向量差异值更低。已经应用于重识别的差异比较方法包括马哈拉诺比斯学习方法,局部自适应决策函数,显着性加权距离,局部Fisher判别分析,边际Fisher分析,以及属性一致性匹配。我们的方法是训练深度网络,同时找到一组有效的特征和相应的相似性度量方法用于特征比较。
2.2 用于重识别的深度学习
据我们所知,之前有两篇文章也使用深度学习方法进行重新识别:
在已知文献中,有一种“Siamese(暹罗)”卷积网络用于差异比较学习方法。 他们的网络架构由三个独立的卷积网络组成,作用于两个输入图像的三个重叠部分。 每个特定于部分的网络由两个具有汇合池的卷积层组成,后面是全连接的层。 全连接层为每个输入图像产生输出矢量,并且使用余弦函数比较两个输出矢量。 然后融合三个部分中的每一个的余弦输出以获得最终相似性得分。
他们使用不同的网络架构,该架构从max-pooling的单个卷积层开始,接着是斑块匹配层,其在各种水平偏移处将来自两个输入的卷积特征响应相乘(对一个输入图像中每个斑块的响应分别乘以对另一个输入图像中相同水平条采样的每个其他斑块的响应)。接着是一个最大输出分组层,它保持来自每个区域匹配响应水平条带的最大值,然后是另一个具有max-pooling层,最后是一个全连接的层和softmax输出。
我们的架构与以前的方法大不相同。我们的网络从两层卷积和max-pooling层开始学习一组用于比较两个输入图像的特征。然后,我们使用计算交叉输入邻域差异特征的网路层,将来自一个输入图像的特征与在另一个图像的相邻位置中计算的特征进行比较。接下来是一个新层,它将在这些局部差异中提取一个更小的区域特征。接下来,我们使用另一个具有max-pooling层,之后是两个具有softmax输出的完全连接层。除了我们在其中具有可学习参数的新层之外,我们的网络具有三个卷积层,而在和中仅有两个,这使得我们的网络比先前呈现的网络在文献中重识别网络更深。另外,我们的网络引入了一种更强大的度量方法来比较早期层中学到的特征。
我们的深度网络重识别性能超过了在大型CUHK03数据集和较小CUHK01 数据集实现的方法。此外,尽管小数据集可以使大型网络的有效训练变得困难或不可能,但我们的网络在更小的VIPeR数据集上与现有技术相当。
3.我们的工作
在本文中,我们提出了一种深度神经网络体系结构,它将行人重识别的问题表述为二元分类。 给定一对输入图像,任务是确定两个图像是否代表同一个人。 图2说明了我们网络的架构。 正如上一节中简要描述的那样,我们的网络由以下不同的层组成:两层捆绑的max-pooling层的卷积层,交叉输入邻域差异层,区域特种汇总层,跨区域特征,特征深层关系,最后是softmax 函数以产生输入图像是否是同一个人的最终估计。 以下小节将介绍这些层中的每一层。
图2: 配对图像通过网络传递。 初始图层分别在两个图像中提取要素,而较高层则计算它们之间的关系。 图中展示了必须学习的卷积滤波器的数量和规模。 例如,在第一个绑定卷积层中,5times;5times;3→20表示该层中有20个卷积特征,每个卷积特征的内核大小为5times;5times;3。整个网络中有2,308,147个可学习参数。 有关详细信息,请参阅第3节。
3.1绑定max-pooling的卷积层
为了确定两个输入图像是否属于同一个人,我们需要找到两个图像之间的关系。在深度学习文献中,卷积特征已经证明对各种分类任务起到非常有效的作用。我们网络的前两层是卷积层,用它们分别计算每个输入图像各自的高阶特征。为了使后续层中的两个图像的特征具有可比性,我们的前两个层执行捆绑卷积,其中权重在两个视图中共享,以确保两个视图使用相同的过滤器来计算特征。如图2所示,在第一个卷积层中,我们传递大小为60times;160times;3的RGB图像的输入对使用20通道大小为5times;5times;3的卷积核。得到的特征映射通过max-pooling将元素的宽度和高度减半。这些特征通过另一个绑定的卷积层传递,该层使用25通道大小为5times;5times;20的卷积核,然后通过max-pooling层,再次将特征图的宽度和高度减少2倍。最后通过这两个特征计算层,每个输入图像由大小为12times;37的25个特征图表示
3.2交叉输入邻域差异
两个绑定的卷积层为每个输入图像提供一组25个特征图,从中我们可以了解两个视图之间的关系。令与分别表示来自第一与第二个视图中第i个特征映射()。交叉输入邻域差异层围绕每个特征位置的邻域的两个视图计算特征值的差异,产生一组25个邻域差异图Ki。从。其中:
(1)
是一个5times;5的1s矩阵,是一个来自以图中为中心点的5times;5区域。
也就是说,5times;5矩阵是两个5times;5矩阵的差值,在第一个矩阵中,每个元素都是标量fi(x,y)的副本,第二个是以为中心的gi的5times;5邻域矩阵。在邻域中获取差异目的是增加两个输入图像的对应特征中的位置差异的鲁棒性。 由于(1)中的运算是不对称的,我们还考虑了邻域差异映射,当fi和gi的角色相同时,其定义类似于(1)中的Ki,。这里生成了50个邻域差异图,和,每个都具有12times;37times;5times;5的尺寸。我们通过整流线性单元(ReLu)传递这些邻域差异图。
3.3 区域汇总特征
在前一层中,我们以邻域差异图的形式计算了来自两个输入图像的特征之间的粗略关系。该层通过生成每个5times;5块中的差异表示来总结这些邻域差异图。该层执行的计算。这是通过将K与25通道的大小为5times;5times;25的卷积核进行卷积计算来实现,步长为5。通过将步幅与方块的宽度完全匹配,我们确保位置处在Llt;
全文共11148字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[764]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。