高速跟踪与核化相关滤波器外文翻译资料

 2022-04-17 22:59:42

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


高速跟踪与核化相关滤波器

摘要——大多数现代追踪器的核心部件是一个鉴别分类器,它的任务是区分目标和周围环境。为了处理自然图像的变化,这个分类器通常是经过翻译和缩放的样本补丁来训练的。这样的样本集充斥着冗余——任何重叠的像素都被限制为相同的。基于这个简单的观察,我们提出了数千个翻译块数据集的解析模型。通过证明所得到的数据矩阵是循环的,我们可以用离散傅里叶变换对角化它,同时减少几个数量级的存储和计算。有趣的是,对于线性回归,我们的公式等价于一个相关的过滤器,被一些速度最快的跟踪器使用。然而,对于内核回归,我们得到了一个新的核化相关滤波器 (KCF),不像其他的内核算法,它的复杂度与它的线性对应的复杂度完全相同。在此基础上,我们还提出了一个线性相关滤波器的快速多通道扩展,我们称之为双相关滤波器(DCF)。KCF和DCF在50个视频基准测试中都优于顶级跟踪器,比如在50个视频基准上进行了攻击或TLD,并在几行代码中实现(算法1)。为了鼓励进一步的开发,我们的跟踪框架是开源的。

关键词:目标跟踪,循环矩阵,离散傅里叶变换,核方法,岭回归,相关滤波器。

1介绍

在最近的视觉跟踪研究中,最重要的突破之一就是广泛采用了辨别性学习方法。跟踪是许多计算机视觉系统的重要组成部分,它可以被自然地指定为在线学习问题[1], [2]。给定一个包含目标的初始图像补丁,目标是学习一个分类器来区分它的外观和环境。这种分类器可以在许多位置进行详尽的评估,以便在后续的帧中进行检测。当然,每个新发现都提供了一个新的图像补丁,可以用来更新模型。人们很容易将注意力集中在对感兴趣的对象的描述上——分类器的正样本。然而,区分方法的一个核心原则是给予相关的环境——即负样本——同等重要或更多。最常用的负样本是来自不同位置和尺度的图像补片,反映了在这些条件下分类器将被评估的先验知识。一个极具挑战性的因素是,几乎无限数量的负样本可以从图像中得到。由于跟踪的时间敏感性,现代追踪器在尽可能多的样本和保持计算的需求之间走一条细线。一般的做法是随机选取几个样本,每一帧[3], [4], [5], [6], [7]。虽然这样做的原因是可以理解的,但我们认为,在跟踪中,负采样的负性是抑制性能的主要因素。在本文中,我们开发了一种工具,可以在不同的相对翻译中对数千个样本进行分析,而不需要对它们进行显式的迭代。这是有可能的发现,在傅里叶域中,一些学习算法实际上变得更容易,因为我们添加了更多的样本,如果我们使用一个特定的模型来翻译。这些分析工具,即循环矩阵,在流行学习算法和经典信号处理之间提供了有用的桥梁。这意味着我们可以提出一个基于Kernel Ridge Regression[8]的跟踪器,它不会受到“kerne”的影响,这是它更大的渐近复杂性,甚至比非结构化线性回归的复杂性更低。相反,它可以被看作是线性相关滤波器的一个kerne版本,它构成了最快的追踪器的基础[9], [10]。我们利用强大的内核技巧与线性相关过滤器相同的计算复杂度。我们的框架很容易合并多个特性通道,通过使用一个线性内核,我们可以快速地将线性相关滤波器扩展到多通道情况。

2相关工作

2.1跟踪检测

图 1 Kernelized Correlation Filter (KCF)的定性结果

与top- performance Struck和TLD相比。最好在高分辨率屏幕上观看。所选的内核是高斯函数。这些快照是在最近的基准[11]的50个视频的中点拍的。丢失的跟踪器是用“x”表示的。KCF的性能优于TLD,尽管它的实现很少,并且运行在172个FPS(参见算法1和表1)。

对跟踪检测的全面审查超出了本文的范围,但是我们将感兴趣的读者推荐给两位优秀的和最近的调查[1], [2]。最流行的方法是使用一个有区别的外观模型[3], [4], [5], [6]。它包括在线训练分类器,根据统计机器学习方法,预测图像补丁中目标的存在与否。然后在许多候选块上测试这个分类器,以找到最有可能的位置。或者,这个位置也可以直接预测[7]。与类标签的回归可以被看作是分类,所以我们可以互换使用这两个术语。我们将在关注与我们的分析方法更直接相关的文献之前讨论一些相关的追踪器。基于支持向量机(SVM)[12],随机森林分类器[6],或[13],[5]的那些基于支持向量机的规范示例[2]。所有提到的算法都必须适应在线学习,以便对跟踪有用。Zhang等[3]提出了一个固定随机基的投影,训练一个朴素贝叶斯分类器,受压缩感知技术的启发。Hare等[7]基于大量的图像特征,利用结构化的输出SVM和高斯核函数,直接预测目标的位置,而不是在给定的图像块中存在。无鉴别跟踪器的例子包括Wu等人[14]的工作,他们将跟踪作为一个序列的图像对齐目标,以及sevillaa - lara和Learned-Miller[15],他们提出了一个基于分布域的强大的外观描述符。Kalal等[4]的另一种判别方法是利用一组结构约束来指导提高分类器的抽样过程。最后,Bolme等[9]采用经典信号处理分析来获得快速相关滤波器。我们将在稍后详细讨论这两种方法。

2.2样本位移和相关滤波

回想一下,我们的目标是有效地学习和检测翻译过的图像补丁。与我们的方法不同的是,到目前为止,大多数尝试都集中在清除无关的图像补丁上。在检测方面,可以使用分支-绑定来查找分类器响应的最大程度[16]。不幸的是,在最坏的情况下,算法仍然需要遍历所有补丁。一种相关的方法可以有效地找到一对图像中最相似的部分[17],但是没有直接翻译到我们的设置中。虽然它并不排除彻底的搜索,但值得注意的优化是使用快速但不准确的分类器来选择有希望的补丁,并且只在那些[18], [19]上应用完整的、较慢的分类器。在培训方面,Kalal等[4]提出利用结构约束从每个新图像中选择相关的样本补丁。这种方法比较昂贵,限制了可以使用的特性,并且需要对结构启发式进行仔细的调优。一种流行的、相关的方法,虽然主要用于脱机检测器学习,但它是一种硬负极挖掘[20]。它包括在图像池中运行初始检测器,并选择任何错误的检测作为样本进行再培训。尽管这两种方法都减少了训练样本的数量,但一个主要的缺点是,必须通过运行一个检测器来彻底地考虑候选补丁。我们研究的最初动机是最近跟踪[9], [10]的相关滤波器的成功。相关滤波器已经被证明具有更复杂的方法,但是仅仅使用了计算能力的一小部分,在数百帧每秒。它们利用了两个补丁的卷积(松散地,它们的点积在不同的相对翻译上)相当于在傅里叶域中的一个元素的乘积。因此,通过在傅里叶域内制定目标,他们可以同时指定一个线性分类器的期望输出。一个傅立叶域方法可以非常有效,并且有几十年的研究信号处理从[21]。不幸的是,它也可能是极其有限的。我们希望同时利用计算机视觉的最新进展,例如更强大的特性、大范围的分类器或内核方法[22], [20], [23]。一些研究朝这个方向发展,并尝试将内核方法应用于相关过滤器[24], [25], [26], [27]。之间必须画在这些作品中,区分两种类型的目标函数:那些不考虑功率谱或图像翻译,如综合判别函数(SDF)过滤器[25],[26],和那些做什么,比如最小平均相关能量[28],[27]和最小输出最佳权衡平方误差的总和(MOSSE)过滤器[9]。由于空间结构可以有效地忽略,因此前者更容易实现,而内核SDF滤波器已被提出[26], [27], [25]。然而,在翻译的图像、非线性内核和傅里叶域之间缺乏清晰的关系,将内核技巧应用到其他过滤器中已经被证明是非常困难的[25],[24],有些建议需要大大提高计算时间,并对可考虑的图像转换的数量施加严格的限制[24]。对于我们来说,这暗示了需要在翻译的图像补丁和训练算法之间建立更深的联系,以克服直接傅立叶域公式的局限性。

2.3后续工作

由于这项工作的初始版本[29],一个有趣的时域变体的建议循环移位模型已经被成功地用于视频事件的检索[30]。线性相关滤波器对多通道的推广也被提出[31], [32], [33],其中一些建立在我们的初始工作上。这使得他们可以利用更现代的特性(例如,面向梯度的直方图)。对其他线性算法的推广,如支持向量回归,也提出[31]。我们必须指出,所有这些工作都是离线训练,因此要依赖较慢的求解器[31], [32], [33]。相比之下,我们关注的是快速的元素智能操作,它更适合于实时跟踪,即使是内核技巧。

3贡献

这项工作的初步版本是在较早的时候提出的[29]。它首次证明了脊回归与周期移位的样本和经典相关滤波器之间的联系。这使得快速学习用O(nlogn)快速傅里叶变换代替了昂贵的矩阵代数。本文还提出了第一个相关滤波器,虽然仅限于单一通道。此外,它还提出了在所有循环移位中计算核的闭型解。这些方法具有相同的O(nlogn)计算成本,并得到了径向基和点积核。目前的工作在很大程度上增加了最初的版本。所有最初的结果都是用一种简单得多的对角化技术重新获得的(第4-6节)。我们扩展了原有的工作,以处理多个渠道,这允许使用最先进的特性,从而对性能有重要的提升(第7节)。我们还将最初的实验从12个视频扩展到50个视频,并在基于面向梯度(HOG)特征的直方图的基础上添加了一个新的Kernelized Correlation Filter (KCF)跟踪器,而不是原始的像素。通过一个线性的核函数,我们提出了一个具有非常低计算复杂度的线性多通道滤波器,它几乎与非线性内核的性能相匹配。我们将其命名为Dual Correlation Filter (DCF),并展示了它与一组最近的、更昂贵的多通道过滤器的关系[31]。实验上,我们证明了KCF已经比线性过滤器性能好,没有任何特征提取。有了HOG特征,线性DCF和非线性KCF的表现都优于[7]或轨迹学习检测(TLD)[4],而舒适地运行每秒帧数。

4构建块

在本节中,我们提出了一种基于不同译法的图像补片的分析模型,并对线性回归算法的影响进行了研究。我们将展示一个与经典相关过滤器的自然基础连接。我们开发的工具将允许我们在第5-7节中学习更复杂的算法。

4.1线性回归

我们将重点讨论Ridge回归,因为它承认一个简单的闭型解决方案,并且能够实现接近更复杂的方法的性能[8]。训练的目标是找到一个函数,最小化样本及其回归目标的平方误差,

是正则化参数,控制过度拟,SVM。正如前面提到的,最小化器有一个闭合形式,由[8]给出

其中,数据矩阵每排有一个样本,的每一个元素都是一个回归目标。是一个单位矩阵。从第4.4节开始,我们将不得不在傅里叶域工作,那里的量通常是复数。它们并不难处理,只要我们使用的是复杂的公式2。

其中是共轭转置,即,为实数,,减少公式2的计算量。一般来说,需要求解一个大的线性方程组来计算解,在一个实时的环境下,它会变得难以承受。在接下来的段落中,我们将看到一个特殊的例子,它绕过了这个限制。

图 2基础样本的垂直循环移位例子

我们的傅里叶域公式使我们可以对一个基本样本的所有可能的循环移位进行训练,无论是垂直的还是水平的,而不是明确地迭代它们。可以看到来自被包装的边缘的工件(最左边的图像顶部),但是通过余弦窗口和填充来减轻。

4.2循环位移

对于符号简单性,我们将着重于单通道、一维信号。这些结果推广到多通道、二维图像以一种简单的方式(第7节)。考虑一个向量代表一个补丁与感兴趣的对象,表示。我们将把它作为样本。我们的目标是训练一个具有基本样本(一个正例子)的分类器和一些通过翻译获得的虚拟样本(这是反面例子)。我们可以通过一个循环移位算子来模拟这个向量的一维变换,也就是置换矩阵。

乘积改变元素,建模一个小翻译。我们可以通过使用矩阵来实现更大的平移。负表示向相反方向移动。如图3所示,采用该模型水平翻译的1D信号,如图2所示为二维图像的例子。细心的读者会注意到,最后一个元素会缠绕在一起,导致一些扭曲相对于真正的移位。然而,这种不良的属性可以通过适当的填充和窗口来减轻。一个信号的大部分元素仍然被正确地建模,即使是相对较大的移位(见图2),也解释了循环移位在实践中运行良好的现象。

由于循环性质,我们得到相同的信号周期性的每次变化。这意味着得到了完整的移位信号。

再一次,由于循环性质,我们可以等价地把前半部分看成是正方向上的位移,而后半部分则是负方向的位移。

图 3循环矩阵的说明

这些行是向量图像的循环移位,或其在1D中的翻译。同样的性质也适用于包含二维图像的循环矩阵。

4.3循环矩阵

为了用移位的样本计算回归,我们可以使用Eq. 5的集合作为数据矩阵X的行:

图3给出了结果图形的图解。我们刚刚得到的是一个循环矩阵,它有几个有趣的性质[34], [35]。注意,模式是确定的,并且由生成的向量x完全指定,这是第一行。也许最令人惊奇和有用的是,所有循环矩阵都是由离散傅里叶变换(DFT)对角线进行的,而不考虑生成向量[34]。这可以表示为。

是一个常数矩阵,不依赖于和表示生成的DFT向量。从现在开始,我们将始终使用一顶帽子circ;作为矢量的DFT的速记。常数矩阵是称为DFT矩阵,和独特的矩阵计算DFT的任何输入向量为。这是可能的,因为DFT是一个线性操作。公式7表示一般循环矩阵的特征分解。共有的、确定的特征向量位于许多不常见特征的根,如交换性或闭型反转。

4.4把它放在一起

我们现在可以应用这一新知识来简化公式3中的线性回归,当训练数据由循环移位组成时。能够单独使用对角矩阵是很有吸引力的,因为所有操作都可以在对角元素上进行元素化。以这个术语为例,它可以被看作是一个

全文共6933字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13776],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。