用于目标跟踪的全卷积式孪生网络外文翻译资料

 2022-08-14 14:33:24

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


用于目标跟踪的全卷积式孪生网络

Luca Bertinetto Jack Valmadre Jotilde;ao F. Henriques Andrea Vedaldi Philip H. S. Torr

Department of Engineering Science, University of Oxford {name.surname}@eng.ox.ac.uk

摘要:任意目标跟踪的问题传统上是通过在线学习目标的外观来解决的,并且用视频本身作为唯一的训练数据。尽管这些方法取得了成功,但它们只能在线上使用的方法从本质上限制了它们可以学习的模型的丰富程度。最近,人们数次尝试去开发深度卷积网络的表现力。但是,当被跟踪的目标之前是不了解的时候,为了适应网络的权值,需要在线进行随机梯度下降,这严重影响了系统的速度。本文在ILSVRC15数据集上,采用端到端训练的全卷积Siamese网络,实现了一种基本的视频目标检测跟踪算法。我们的跟踪器以超越实时的帧速率运行,尽管它非常简单,但在多个基准测试中都达到了最先进的性能。

关键词:目标跟踪,Siamese网络;相似性学习;深度学习;

1简介

我们考虑的是在视频中跟踪任意对象的问题,并且其中的对象仅被第一帧中的矩形识别。由于该算法可能被要求跟踪任意对象,因此不可能已经收集了数据并训练了特定的检测器。

几年来,这个场景中最成功的范例是使用从视频本身[1]中提取的示例以在线方式学习对象的外观。这在很大程度上归功于TLD[2]、Struck[3]和KCF[4]等方法的能力。然而,使用目前的视频数据的一个明显的不足是,只能学习相对简单的模型。虽然计算机视觉的其他问题已经看到越来越普遍地采用从大型监督数据集训练的深度卷积网络(conv -nets),但监督数据的稀缺性和实时操作的约束阻止了在这种每个视频学习一个检测器的深度学习的天真的应用。

最近的几项工作旨在克服这一限制,使用预先训练的深卷积网络,这个网络用于一个不同但相关的任务学习。这些方法要么使用“浅层”方法(如相关滤波器),利用网络的内部表现作为特征[5,6],要么使用SGD(随机梯度下降)对网络中的很多层进行微调[7,8,9]。虽然使用浅层方法不能充分利用端到端学习的好处,但在跟踪过程中应用SGD来实现最新进的结果的方法还不能执行。

我们提倡一种可替代的方法,即在初始的离线阶段对深度卷积网络进行训练,以解决更为普遍的相似学习问题,然后在跟踪过程中在线简单地评估该功能。本文的主要贡献在于证明了该方法在远超过帧速率要求的速度下,在现代跟踪基准中获得了非常有竞争力的性能。具体地说,我们训练了一个Siamese网络来在更大的搜索图像中定位范例图像。进一步的贡献是一个新的Siamese结构,它在搜索图像方面是全卷积的:通过计算两个输入之间的相互关系的双线性层来实现密集而有效的滑动窗口评估。

我们假设相似学习方法已经相对地被忽视了,因为跟踪社区没有获得大量的标记数据集。事实上,直到最近,可用的数据集只包括几百个带注释的视频。然而,我们认为在视频[10](从今以后的ImageNet视频)中出现的用于对象检测的ILSVRC数据集使得训练这样一个模型成为可能。此外,训练和测试使用来自同一领域的视频跟踪的深度模型的公平性是一个争议点,因为它最近被VOT委员会禁止。我们展示了我们的模型从ImageNet视频域扩展到ALOV/OTB/VOT[1,11,12]域,使得跟踪基准的视频可以留下来用于测试目的。

2深度相似学习的跟踪

学习跟踪任意目标可以使用相似学习来解决。我们建议学习一个函数f(z,x),该函数将一个范例图像z与一个大小相同的候选图像x进行比较,如果两个图像描述的是相同的对象,则返回高分,否则返回低分。为了找到物体在新图像中的位置,我们可以详尽地测试所有可能的位置,并选择与物体过去外观最相似的候选位置。在实验中,我们将简单地使用对象的初始外观作为范例。函数f将从标记了目标轨迹的视频的数据集中学习。

考虑到它们在计算机视觉方面的广泛成功[13,14,15,16],我们将使用深卷积神经网络作为函数f。深卷积神经网络的相似性学习通常使用Siamese网络来解决[17,18,19]。Siamese网络应用一个恒等变换ϕ给两个输入,然后结合其使用另一个函数g表示根据f (z、x) = g(ϕ(z),ϕ(x))。当函数g是一个简单的距离或相似度的度量标准,ϕ可以被认为是一个嵌入的。深度Siamese卷积神经网络此前已经被应用于人脸验证[18,20,14]、关键点描述符学习[19,21]和一次性字符识别[22]等任务中。

图一:全卷积式孪生网络的结构。我们的架构对于搜索图像x来说是完全卷积的。输出是一个标量值的分数图,它的尺寸取决于搜索图像的大小。这使得在一次计算中可以为搜索图像中所有已翻译的子窗口计算相似度函数。在本例中,分数图中的红色和蓝色像素包含对应子窗口的相似性。彩色效果最佳。

2.1全卷积式孪生架构

我们提出了一个关于候选图像x的全卷积的Siamese结构。我们说如果一个函数进行的是平移交换,它就是全卷积的。给一个更精确的定义,引入Ltau;表示转换操作符, 对于任何翻译tau;,h函数信号映射到信号与整数步的全卷积k 。(当x是一个有限的信号时,这只需要保持输出的有效区域。)

;(1)

全卷积网络的优点是,我们可以提供一个大得多的搜索图像作为网络的输入,而不是一个大小相同的候选图像,它将在一次评估中计算稠密网格上所有已翻译子窗口的相似度。为了达到这个目的,我们使用一个卷积嵌入函数ϕ和结合互相关层产生的特征图谱。

;(2)

其中b1表示在每个位置取值bisin;R的信号。这个网络的输出不是一个单一的分数,而是分地图上定义的一个有限网格Dsub;Z2如图1所示。注意,嵌入函数的输出是具有空间支持的特征图,而不是一个普通的向量。同样的技术也应用于当代的立体匹配[23]。

在跟踪过程中,我们使用一个搜索图像,它的中心在目标的前一个位置。最大分数相对于分数图的中心的位置,乘以网络的步幅,得到目标从一帧到另一帧的位移。通过组装一个小批量的缩放图像,可以在一个前向搜索中搜索多个比例。

在较大的搜索图像上,利用互相关结合特征图对网络进行一次评价,在数学上等价于内积运算结合特征图,然后对每个被翻译的子窗口分别进行评价。然而,互相关层提供了一种非常简单的方法,可以在现有的convnet库框架内有效地实现这种操作。虽然这在测试中很有用,但也可以在培训中加以利用。

2.2用大的搜索图像进行训练

我们采用一种判别的方法,对正、负对网络进行训练,采用逻辑损失法。

;(3)

其中v为单个样本-候选对的实值分数,yisin;{ 1,minus;1}为其基真标签。在训练过程中,我们通过使用包含范例图像和更大的搜索图像的对来利用网络的全卷积特性。这将生成一个分数v: D→R的地图,每对有效地生成许多例子。我们将分数图的损失定义为个人损失的平均值。

;(4)

对于score map中的每个位置uisin;D,需要一个真正的标签y[u]isin;{ 1,- 1}。conv-net的参数theta;得到运用随机梯度下降法(SGD)问题。

;(5)

通过提取范例和目标中心的搜索图像,可以从带注释的视频数据集中获得很多对,如图2所示。这些图像是从视频的两帧中提取出来的,这两帧都包含了目标,并且最多只间隔了T帧。对象的类别在训练期间被忽略。在不破坏图像高宽比的情况下,对每幅图像中对象的尺度进行标准化。如果分数图的元素在中心半径R以内,则认为它们属于正例(考虑到网络的步长k)。

;(6)

对分数图中阳性和阴性样本的损失进行加权,以消除等级不平衡。

图2:从同一视频中提取的训练对:样本图像和对应的搜索图像来自同一视频。当子窗口扩展到图像范围之外时,缺失的部分用RGB值填充。

因为我们的网络是全卷积的,所以它不会对中心的子窗口产生偏见。我们认为,考虑以目标为中心的搜索图像是有效的,因为最困难的子窗口和对跟踪器性能影响最大的子窗口可能是那些接近目标的子窗口。

注意,由于网络是对称的f(z,x) = f(x,z),因此在范例中它实际上也是完全卷积的。虽然这允许我们在理论上为不同的对象使用不同大小的范例图像,但是我们假定大小是统一的,因为它简化了小型批处理实现。然而,这种假设在未来可能会被放宽。

2.3 ImageNet跟踪视频

2015年版的ImageNet Large Scale Visual Recognition Challenge [10] (ILSVRC)引入了ImageNet视频数据集,作为来自Video Challenge的新对象检测的一部分。参与者需要对30种不同种类的动物和车辆的物体进行分类和定位。培训和验证集包含近4500个视频,总共有超过100万个带注释的帧。如果与VOT[12]、ALOV[1]和OTB[11]中总共不到500个视频的标记序列相比,这个数字尤其令人印象深刻。我们认为,这个数据集应该引起跟踪社区的极大兴趣,不仅因为它的巨大规模,还因为它描述的场景和对象与规范跟踪基准中的不同。由于这个原因,它可以安全地用于训练深度跟踪模型,而不必过度拟合这些基准中使用的视频域。

2.4实际的考虑

数据集管理。在训练过程中,我们采用了127times;127的范例图像和255times;255像素的搜索图像。图像的比例是这样的,边界框,加上一个额外的上下文空白,有一个固定的区域。更准确地说,如果紧边界框的大小为(w,h),上下文边界为p,则选择比例因子s,使所缩放矩形的面积等于一个常数

s(w 2p)times;s(h 2p) = A . (7)

我们使用范例图像的面积A = 1272,并将上下文的数量设置为平均维数p = (w h)/4的一半。离线提取每个帧的示例和搜索图像,以避免在训练期间调整图像大小。在这项工作的初步版本中,我们采用了一些启发式方法来限制用于提取训练数据的帧数。而在本文的实验中,我们使用的是ImageNet Video的全部4417个视频,它们所占的标签边界框数量超过了200万个。

网络体系结构。嵌入函数ϕ的体系结构,我们采用类似于卷积网络阶段Krizhevsky et al . [16]。参数和激活的尺寸如表1所示。Maxpooling在前两个卷积层之后使用。除最后一层conv5外,ReLU非线性跟随每个卷积层。在训练过程中,每一个线性层之后立即插入批量归一化[24]。最终代表的步幅是八。设计的一个重要方面是在网络中不引入填充。虽然这是图像分类中常见的做法,但它违反了eq. 1的全卷积特性。

追踪算法。由于我们的目的是为了证明我们的全卷积Siamese网络在ImageNet视频上训练时的有效性和泛化能力,所以我们使用了一个非常简单的算法来进行跟踪。与更复杂的跟踪器不同,我们不更新模型或保持对过去外观的记忆,我们不合并如光流或颜色直方图等其他线索,我们也不使用边界框回归来完善我们的预测。然而,尽管它简单,跟踪算法在配备了我们的离线学习相似性度量时取得了令人惊讶的好结果。在网上,我们确实加入了一些基本的时间约束:我们只在一个大约是之前大小四倍的区域内搜索对象,并且在分数图中添加一个余弦窗口来惩罚较大的位移。通过处理多个缩放版本的搜索图像来实现对缩放空间的跟踪。任何规模的变化都会受到惩罚,当前规模的更新也会受到影响。

表1:卷积嵌入函数的体系结构,类似于Krizhevsky等人的[16]网络的卷积阶段。通道映射属性描述了每个卷积层的输出和输入通道的数量。

3相关工作

最近的几项研究试图训练递归神经网络(RNNs)来解决目标跟踪问题。Gan等人使用[25]训练RNN来预测目标在每一帧中的绝对位置,Kahou等人使用可微注意机制训练RNN进行跟踪。这些方法在现代基准测试中还没有显示出有竞争力的结果,但它无疑是未来研究的一个有希望的途径。我们注意到,通过将Siamese网络解释为一个展开的RNN,并对长度为2的序列进行训练和评估,可以在这种方法和我们的方法之间得出一个有趣的相似之处。因此,Siamese网络可以作为递归模型的强初始化。

Denil 等人[27]使用粒子滤波器来跟踪对象,该滤波器使用一个已学习的距离度量来比较当前外观和第一帧的外观。然而,它们的距离度量与我们的有很大的不同。他们不是比较整个物体的图像,而是计算注视点之间的距离(在物体的边界框中隐约可见的小区域)。为了学习距离度量,他们训练一个受限的Boltzmann机器(RBM),然后使用两个固定的隐藏激活之间的欧式距离。虽然RBM是无监督的,但他们建议训练RBM在目标的中心图像中随机定位以进行检测。这必须在线执行,或者在了解要跟踪的对象的情况下在离线阶段执行。在跟踪一个对象时,他们学习一个随机策略来选择特定于该对象的固定值,使用不确定性作为奖励信号。除了MNIST数字合成序列外,该方法仅在人脸和人员跟踪问题上得到定性的证明。

虽然对于每一个新的视频,从零开始训练一个深层卷积网络是不可行的,一些工作已经调查了在测试时从预先训练的参数进行微调的可行性。SO-DLT[7]和MDNet[9]都在离线阶段对卷积网络进行类似的检测任务训练,然后在测试时使用SGD学习检测器,并使用从视频本身提取的示例作为传

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235592],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。