英语原文共 10 页
学习用于视觉跟踪的多域卷积神经网络
摘要
我们提出了一种新的视觉跟踪算法,该算法基于训练的卷积神经网络(CNN)的特征表示。我们的算法通过使用大量有着标注答案的视频预训练CNN,以获得通用的目标表示。我们的网络由共享层和有着多个分支的域特定层组成,其中域对应于各个训练序列,并且每个分支负责二分类以识别每个域中的目标。针对每个域,迭代地训练网络以获得共享层中的通用目标表示。当在一个新序列中跟踪目标时,我们将已经预训练的CNN中的共享层和新的在线更新参数的二值分类层组合,来构建新网络。在线跟踪时,在先前目标的周围随机采样候选窗口,对候选窗口进行评估来执行在线跟踪。与现有跟踪基准测试中的最新方法相比,所提出的算法表现出了出色的性能。
第1章 引言
卷积神经网络(CNN)近年来已经应用于各种计算机视觉任务,如图像分类[27,5,34]、语义分割[30]、物体检测[13]和许多其他场景[37,36]。 CNN的如此巨大成功主要归功于它们在表征视觉数据方面的出色表现。然而,视觉跟踪领域,受这一流行趋势的影响较小。造成这一现象的原因是很难收集大量用于视频处理应用的训练数据,并且还没有专门用于视觉跟踪的训练算法,同时基于传统手工特征的方法仍然在实践仍然运作良好[18,6,21,42]。最近的几种跟踪算法[20,39]通过在大型分类数据集(如ImageNet)上迁移预训练的CNN来解决数据缺陷问题[33]。尽管这些方法可能足以获得通用特征表示,但由于分类和跟踪问题根本上的不一致,也就是对目标类标签的预测与任意类的目标的定位的不一致,使得这些算法在跟踪方面的有效性是有限的。
为了充分利用CNN在视觉跟踪中的表现力,需要在专用于视觉跟踪的大规模数据集上进行训练,这些数据需要涵盖了目标和背景组合的各种变化。然而,基于具有完全不同特征的视频序列来学习统一的表现特征确实具有挑战性。请注意,单个序列包含了其类别标签、移动模式和外观都不相同的多个目标,并且跟踪算法面对序列的特定挑战,包括遮挡,变形,光照条件变化,运动模糊等。由于同一分类的对象会在一个序列中视为跟踪的目标,而在另一个序列中被视为背景对象,使得训练CNN更加困难。由于序列内的的这种变化和序列之间的差异性,我们认为基于标准分类任务的普通学习方法是不合适的,并且为了更好地跟踪表现,需要融合一种可以获取与域无关的信息的算法。
基于这个事实,我们提出了一种新的CNN架构,称为多域网络(MDNet)。其从各种带有标注的视频序列中来学习得到用于跟踪的共享特征,其中每个视频被视为单独的域。网络末端是用来实现二值分类的特定域层的单独分支,共享先前层中的对所有序列预训练获得的通用信息来进行通用特征学习。算法中,对MDNet中的每个域都进行单独的迭代训练,同时在每次迭代中更新共享层的参数。通过采用这种策略,我们学习从各个特定域中将与域无关的信息分离出来,并获取通用的特征表示。我们的体系结构的另一个亮点的方面是,与AlexNet [27]和VGG网络[5,34]等分类任务的网络相比,我们设计了拥有更少量层的CNN。
我们还提出了一个基于MDNet特征学习表示的有效在线跟踪框架。当给出测试序列时,移除在训练阶段中使用的所有现有的二分类层分支,并构建新的单个分支以计算测试序列中的目标分数。然后,在跟踪期间,在线调整全连接层中的新分类层和共享层参数以适应新域。这种在线更新策略通过对目标外观的长期和短期变化进行建模,可以分别提高其稳健性和适应性,同时在学习过程中结合有效且高效的难分样本挖掘技术。
我们的算法包括多域特征学习和在线视觉跟踪。 我们工作的主要贡献概述如下:
- 我们提出了一个基于CNN的多域学习框架,它将与域无关的信息从每个特定域中分离,来有效地得到共享特征。
bull; 我们的框架已成功应用于视觉跟踪,其中通过多域学习预训练的CNN根据新序列的上下文中在线更新,以自适应地学习域特定信息。
- 我们的广泛实验证明了,与两种公共测试集(对象跟踪基准[40]和VOT2014 [25])中最先进技术相比,我们的跟踪算法有着出色的表现。
本文的其余部分安排如下。在第二部分我们首先回顾了相关工作,并在第三部分讨论了我们的视觉跟踪多域学习方法。在第四部分描述了在线学习和跟踪算法,第五部分展示了在两个跟踪基准数据集中的实验结果。
第2章 相关工作
2.1.视觉跟踪算法
视觉跟踪作为计算机视觉中的基本问题之一,已经被积极研究了数十年。大多数跟踪算法都属于生成或判别方法。生成方法使用生成模型描述目标外观,并搜索模型最匹配的目标区域。许多生成目标外观建模算法已经被提出,包括稀疏表示[31,43]、密度估计[16,22]和增量式子空间学习[32]。相比之下,判别式方法旨在建立一个区分目标对象和背景的模型。这些跟踪算法通常基于多实例学习[2],P-N学习[24],在线提升[14,15],结构化输出SVM [17]等来学习分类器。
近年来,由于计算效率和竞争性能,相关滤波器在视觉跟踪领域受到关注[3,18,6,21]。 Bolme等[3]提出了一种快速相关跟踪器,其具有最小平方误差输出和(MOSSE)滤波器,该滤波器以每秒数百帧的速度运行。 Henriques等人[18]使用循环矩阵研究了核化相关滤波器(KCF),并在傅里叶域中有效地结合了多通道特征。随后,基于 KCF跟踪器的若干变体跟踪器被研究出来以改善跟踪性能。例如,DSST[6]学习用来平移和缩放的单独过滤器,除此,受心理学记忆模型的启发,MUSTer[21]采用的短期和长期内存来存储。尽管这些方法在特定环境中令人满意,但它们具有与生俱来的局限性,即它们采用低级手工制作的特征,这些特征在动态情况下易受光照变化,遮挡,变形等影响。
2.2.卷积神经网络
在各种计算机视觉应用中,CNN已经展示了其出色的表征能力[27,5,34,13,30,37,36]。 Krizhevsky等[27]通过大规模的数据集和使用高效GPU训练一个深层CNN网络,使其在图像分类方面有了显着的性能提升。 R-CNN [13]通过预训练大型辅助数据集并且在目标数据集上进行微调,将CNN应用于训练数据稀缺的目标检测任务。尽管fCNNs取得了如此巨大的成功,但迄今为止仅提出了有限数量的使用CNN表示的的跟踪算法[10,20,28,39]。由于在跟踪前CNN网络是离线训练的,并且在跟踪时网络参数固定不更新[10],基于CNN的早期跟踪算法仅可以处理例如人类等的预定义的目标对象类。尽管[28]提出了一种基于CNN池的在线学习方法,但其缺乏训练数据来训练深度网络,并且与基于手工艺特征的方法相比,其准确性也并非出色。最近的一些方法[39,20]迁移了在图像分类的大规模数据集上预训练的CNN,但由于分类和跟踪任务之间的根本区别,该表示方法可能不是非常有效。与现有方法相反,我们的算法利用大规模视觉跟踪数据来预训练CNN并获得有效的表示。
2.3.多域学习
我们预训练深度CNN的方法属于多域学习,其学习过程是训练数据源自多个域并且域信息被融入学习过程中。多域学习在自然语言处理中是流行的(例如,应用在多个产品上的情感分类和服务于多个用户的垃圾邮件过滤),并且各种方法已经被提出[7,8,23]。在计算机视觉社区中,仅有少数的领域适应方法中讨论了多领域学习。 例如,Duan等人[9]引入了用于视频概念检测的SVM的域加权组合,以及Hoffman等人[19]提出了一种用于对象分类的混合变换模型。
第3章 多域卷积网络(MDNet)
本部分描述了我们的CNN网络架构以及用来获得视觉跟踪中的与域无关的特征的多域学习方法。
3.1.网络架构
我们网络的架构如图1所示。它接收107times;107 RGB输入1,具有五个隐藏层,其中包括三个卷积层(conv1-3)和两个全连接层(fc4-5)。除此,网络在最后的全连接层具有K个分支(-),用来对应K个域,即K个训练序列。网络中的卷积层与VGG-M网络[5]的相应部分相同,不同的是将特征输入大小尺寸调整为我们需要的输入尺寸。接下来的两个全连接的层具有512个输出节点,并与ReLU和dropouts相结合。每个K分支包含一个具有softmax交叉熵损失的二元分类层,其负责区分每个域中的目标和背景。请注意,我们将fc61-fc6K称为特定域层,将所有前面的层称为共享层。
我们的网络架构远远小于经典识别任务中常用的架构,如AlexNet [27]和VGG-Nets [5,34]。由于以下原因,我们相信这种简单的架构更适合于视觉跟踪。首先,视觉跟踪旨在仅区分目标和背景两个类,这个模型复杂性比一般视觉识别问题(例如具有1000个类的ImageNet分类)少。其次,深度CNN网络对于精确的目标定位不太有效,因为随着网络层的深入,空间信息往往会被稀释[20]。第三,由于视觉跟踪中的目标通常很小,因此期望的输入尺寸小,这自然地减小了网络的深度。最后,当训练和测试是在线执行时,较小的网络显然在视觉跟踪问题上更有效。当我们测试较大的网络时,算法的精确性不够并且运行速度变得更慢。
3.2.学习算法
我们的学习算法的目标是训练多域CNN来二分类任意域的目标和背景,但这不是简单的,因为来自不同域的训练数据具有不同的目标和背景概念。然而,仍然存在一些适用于所有域中的目标表现的通用属性,例如对照明变化的稳健性,运动模糊,尺度变化等。为了提取满足这些共同属性的有效特征,通过结合多领域学习框架,我们从域特定层中分离出来与域无关的信息。
我们用随机梯度下降(SGD)方法训练CNN,在每次迭代中每个域都被专门处理。在第k次迭代中,基于一个由第K个序列的训练样本组成的minibatch来更新网络,其中仅有一个分支被使用。重复该过程直到网络收敛或达到预定的迭代次数。通过该学习过程,在共享层中对与域无关的信息建模,从中获得有用的通用特征表示。
图2:通过我们在Bolt2(顶部)和Doll(底部)序列中的硬负挖掘来识别训练示例。 红色和蓝色边界框分别表示每个小批量中的正样本和负样本。随着训练的进行,发现难以分类负面样本。
第4章 使用MDNet进行在线跟踪
一旦我们完成了第3.2节中描述的多域学习,当测试新序列时,域特定层的多个分支会被一个分支(fc6)替换。在跟踪时,我们同时对新的域特定层和共享层中的全连接层进行在线微调。本节将讨论详细的跟踪程序。
4.1.跟踪控制和网络更新
考虑到视觉跟踪中稳健性和适应性这两个互补的因素,我们通过长期和短期更新来实现。使用长时间稳定收集的正样本实现定期的长期更新,同时在短期的正样本上检测到潜在的跟踪失败时进行短期更新,例如:当估计的目标被分类为背景时。在这两种情况下,由于旧的负样本通常是冗余的或与当前帧无关,我们采用短期观察到的负样本。在跟踪期间维护一个网络时,根据目标表现的变化速度执行这两种更新。为了估计每帧中的目标状态,使用网络评估时,首先在先前目标状态周围采样N个候选目标,...,,并且通过网络得到每个候选目标的正分数和负分数,通过在以下计算中得到最大正分数的候选目标作为最佳目标状态。
(1)
4.2.硬负样本挖掘
大多数负样本在跟踪检测方法中通常是多余的,在训练分类器时只有少数分散注意力的负样本是有效。因此,普通的SGD方法,由于没有充分的考虑干扰因素,训练样本通常均匀地驱动网络学习,使其容易产生漂移问题。在目标检测中,针对此问题的一种流行解决方案是硬负面挖掘[35]。这种方案里,使训练和测试程序交替进行,以识别难以识别的通常是假正样本的负样本,我们将此想法用于我们的在线学习过程。
我们将负样本挖掘步骤整合到minibatch选择中。在我们学习过程的每次迭代中,一个minibatch由个正样本和个难以识别的负样本组成。测试(》)负样并选择具有最高正评分的样本,来得到难以识别的负样本。如图2所示,随着学习的进行和网络辨别力的提高,minibatch的分类变得更具挑战性。这种方法检查预定义的样本数量,并有效地识别关键的负样本,而不像标准的负样本挖掘技术那样显式地运行检测器来提取假的正样本。
4.3.边界框回归
由于基于CNN对特征的高级提取和我们的数据增强策略(其围绕目标采样多个正样本(将在下一小节中更详细地描述)),我们的网络有时无法得到围绕目标的封闭紧密边界框。我们应用在目标跟踪领域[13,11]中很流行的边界框回归技术,以提高目标定位精度。给定测试序列的第一帧,我们训练一个简单的线性回归模型,使用目标位置附近样本的conv3特征来预测精确的目标位置。在随后的帧中,对于方程式(1)中得到的候选目标,如果候选目标是可信的(即gt; 0.5)),则使用回归模型来调整目标位置。由于在线更新的耗时,并且与
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。