核相关滤波器与高速目标外文翻译资料

 2022-08-09 10:02:08

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


核相关滤波器与高速目标

跟踪

摘 要

大多数现代跟踪器的核心组件是判别分类器,其任务是区分目标和目标周边的环境。为了应对自然图像的变化,通常使用经过平移和缩放的样本patch进行训练。但这样的样本充满冗余,任何重叠的像素都被视为相同。基于这个简单的观察,我们提出了数千个平移patch的数据集分析模型。结果显示数据是循环的,我们能够使用离散傅里叶变换对数据矩阵进行对角化,从而将存储和计算开销减少几个数量级。有趣的是对于线性回归我们的公式相当于一个相关滤波器,例如目前使用的那些最快的有竞争力的跟踪器。然而,对于核回归,我们推导了一个新的核化相关滤波器(KCF),不同于其他核算法,它与线性核相应部分有完全相同的复杂度。在此基础上,通过线性核,我们还提出了一种线性相关滤波器的快速多通道扩展,我们称之为双相关滤波器。KCF和DCF在50个视频基准(OTB-50)测试中的表现优于Struck或TLD等顶级跟踪器,虽然每秒运行数百帧,但是只需几行代码即可实现(算法1)。为了鼓励更进一步的发展,我们开源了跟踪框架。

索引术语 - 视觉跟踪,循环矩阵,离散傅立叶变换,核方法,岭回归,相关滤波器

1 引言

可以说近些年视觉跟踪研究重大突破之一就是判别学习方法的广泛采用。跟踪任务作为许多计算机视觉系统的关键组成部分,可以自然的指定为在线学习问题[1],[2]。给定一个包含目标的初始图像patch,学习一个能够区分目标的外观和周边环境的分类器。能够在许多位置对这个分类器进行详细的评估,以便后续能够检测目标。当然,每一个新的检测提供一个新的图像patch,该patch能够用于更新模型。

对于分类器,很有可能专注于目标表征的感兴趣特征 —— 正样本。然而判别方法的核心原则是给目标相关环境 —— 负样本(给予其相同重要性或者更多重要性)。通常最常用的负样本来自于不同位置和尺度的图像patch,反映了在这些条件下将对分类器进行评估的先验知识。

一个极大的挑战因素是:虽可以从图像中获得几乎无限的的负样本,但由于跟踪的时间敏感性,现代跟踪器需要在尽可能合并更多样本和保持较低的计算需求中进行折衷。通常的做法是每帧随机选择几个样本[3],[4],[5],[6],[7]。

尽管这样做的原因可以理解,但我们认为负样本的欠采样是阻碍跟踪性能的主要因素(即负样本不足)。在本文中,我们开发了分析包括数千相对平移的样本的工具,且无需明确的迭代。如果我们使用特定的平移模型,那么在傅里叶域,一些学习算法实际上变得更加容易,因为我们添加了更多样本,这使得更容易的学习算法成为可能。

这些分析工具即循环矩阵,在流行的学习算法和经典的信号处理之间提供了一个有用的桥梁。这意味着我们能够提出一种基于核化岭回归[8]的跟踪器而不会遭受“核化的诅咒”,其较大的渐进复杂性,甚至比非结构化线性回归表现出更低的复杂性(这里我的理解:随样本变化复杂度渐进变化)。另外,它可以被看作是线性相关滤波器的核化版本,它构成了可用的最快跟踪器的基础[9],[10]。 我们利用强大内核技巧实现线性相关滤波器相同的计算复杂度。 我们的框架很容易包含多个特征通道,通过使用线性内核,我们可以快速扩展线性相关滤波器到多通道情况。

2 相关工作

2.1 关于跟踪检测

对检测跟踪的全面综述超出了本文的范围,但我们将感兴趣的读者引到最近两个极好的调查[1],[2]。 现在最流行的方法是使用判别性的外观模型[3],[4],[5],[6]。 它包括受统计机器学习方法的启发的在线训练分类器,以预测图像patch中目标的存在与否。 然后该分类器在众多候选patch上测试,找到最可能的目标位置。

图1.KCF与最佳性能Struck和TLD相比的定性结果。 最好在高分辨率屏幕上观看。 在HOG特征上选择的高斯核。 这些快照是在最近的基准(OTB)测试50个视频的中点拍摄的[11]。 丢失的跟踪器用“x”表示。 KCF优于Struck和TLD,而且KCF实现最少的代码且运行速度达到172 FPS(参见算法1和表1)。

另外,也可以直接预测目标位置[7]。 使用类标签的回归可以看作是分类,因此我们可以互换地使用这两个术语。

在关注与我们的分析方法更直接相关的文献之前,我们将讨论一些相关的跟踪器。tracking-by-detection典型示例包括那些基于支持向量机(SVM)[12]的示例,随机森林分类器[6]或这些算法的增强变体[5],[13]。 所有提到的算法都必须适用于在线学习,以便对跟踪有用。Zhang等人 [3]受压缩感知技术的启发,提出了一个固定的随机基础投影,以训练一个朴素贝叶斯分类器。其目的在于直接预测目标的位置,而不是在给定的图像patch中屎都存在,Hare等人[7]基于大量的图像特征,采用结构化输出SVM和高斯核。非判别类跟踪器的例子包括Wu[14]等人的工作。他们将跟踪描述为一系列对齐目标的图像,以及Sevilla-Lara和Learned-Miller [15],他们提出了一个基于分布领域的强大的外观描述。Kalal等人[4]提出了另一种有区别的方法,他们使用一组结构约束来引导加速分类器的采样过程。最后,Bolme等人[9]采用经典信号处理分析以推导快速相关滤波器。我们将在稍后更详细的讨论上述最后两个工作。

2.2 样本平移和相关滤波

回忆一下我们的目标是有效的学习和检测图像patch的变化。到目前为止大多数尝试都不同于我们的方法,主要都集中在移除不相关的图像patch。在检测方面,可以使用分支界定来找到分类器的最大响应,同时避免不合理的候选patches[16]。不幸的是,在最坏情况下算法可能仍不得不迭代全部patches。一个相关的方法能够有效的发现一对图像最相似的patches[17],但是不能直接为我们的设置平移。虽然它并不排除详尽的搜索,一个显著典型的优化是使用快速但不精确的分类器来选择合理的patch,并且只应用完整的,较慢的分类器[18],[19]。

在训练方面,Kalal等人[4]提出使用结构化约束去从每一张新的图像中选择相关样本patches。这种方法代价昂贵,限制了能够使用的特征,并且需要仔细的调整结构化启发式。一种流行且相关的方法虽然主要用于离线检测器学习,它采用hard negative mining[20]。它包括在图像池上运行初始检测器,并选择任何错误的检测作为重新训练的样本。 尽管两种方法都减少了训练样本的数量,但主要缺点是必须通过运行检测器来详尽考虑候选补丁。

我们研究方向的最初动机是近期成功的跟踪器 — 相关滤波器[9],[10]。事实证明,相关滤波与更加复杂的方法相比具有竞争力,而且仅仅使用了一小部分计算资源实现了几百帧每秒的速度。他们利用了这样一个事实,即两个patch的卷积(稀疏的,它们在不同相对平移时的点积)相当于傅里叶域中的元素乘积(时域卷积 = 频域点积)。 因此,通过在傅里叶域中描述它们的目标,对于几次平移或图像移位,可以指定线性分类器期望的输出。

傅里叶域方法非常有效,并且在信号处理领域有几十年的研究[21]。不幸的是,它也可能是及其有限的。我们希望同时利用计算机视觉领域的先进进展,例如:更强大的特征,大余量分类器和核方法[20],[22],[23]。

一些研究正在朝着这个方向发展,并且尝试将核方法应用到相关滤波[24],[25],[26],[27]。在这些工作中,必须区分两种类型的目标函数:不考虑功率谱或图像转换的那些,例如合成判别函数(SDF)滤波器[25],[26],以及那些, 例如最小平均相关能量[28],最优权衡[27]和最小平方误差输出和(MOSSE)滤波器[9]。由于空间结构可以有效的被忽略,前者更容易被核化,而且核化SDF已经被提出[25],[26],[27]。然而由于在图像变换(平移),非线性核和傅里叶域间缺乏一个清楚的关系,向其他滤波器应用核技巧已经被证明极其困难[24],[25],其他推荐需要显著、更高的计算时间并且需要考虑大量图片平移被强制限制的问题。

对于我们而言,这暗示我们需要在变化图像patches和训练算法之间找到更深的连接,以克服直接傅里叶域公式的局限性。

2.3 后续工作

自从我们工作的初始版本(CSK)以来,我们提出的循环移位模型的一个有趣的时域变体已经非常成功的用于视频事件检索[30]。还提出了线性相关滤波器的多通道推广[31],[32],[33],其中一些建立我们初始工作的基础之上。这允许他们利用更先进的特征(如:方向梯度直方图 — HOG)。我们还对其他线性算法进行了推广,诸如支持向量回归[31]。我们必须指出这些工作的均以离线训练目标,而且依赖较慢的求解器[31],[32],[33]。相比之下,我们关注于快速的元素操作,即使使用核技巧它也更适合实时跟踪。

3 贡献

这些工作的早期版本(CSK),在更早的时间提出。第一次证明了岭回归与循环移位样本和经典相关滤波之间的联系。这使得能够使用复杂度 的快速傅里叶变化进行快速学习而不是昂贵的矩阵代数计算。提出了首个核化相关滤波,但其受到单通道的限制。另外,它提出了在所有循环移位中计算内核的封闭形式解决方案(即该方法存在闭式解)。这些方法针对径向基和点积内核,具有相同的计算成本 。

目前的工作在初始版本上进行了显著性加强。使用更简单的对角化技术(第4,5,6节)重新推导所有的初始结果。我们将原始工作的单通道扩展为多通道,让更先进的特征能被使用,这使得性能显著增加(第7节)。在初始结果上增加了大量新的分析和直观解释。我们也将初始的实验测试视频序列从12个增加到50个视频序列,并且增加了一个新的基于HOG特征而不是原始像素的KCF跟踪器变体。通过线性核,我们进一步提出了更低计算复杂度的一个线性多通道滤波器,几乎和非线性核的性能相当。我们将其命名为双相关滤波器(DCF),并展示它如何与一组最近的,更昂贵的多通道滤波器相关[31]。通过实验,我们证明了KCF已经比线性滤波器表现更好,没有任何其他特征提取。如果将Raw特征换成HOG特征,线性DCF和非线性KCF均优于Struck[7]和TLD[4]等大排名靠前的跟踪器,同时可以轻松保证100多帧每秒的速度。

4 主要工作

在本节中,我们提出了在不同平移下抽取的图像patches的分析模型,并且计算其对线性回归算法的影响。并将展示和经典相关滤波器自然潜在连接。我们开发的这个工具使得我们可以研究更加复杂的算法(第5,6,7节)。

4.1 线性回归

我们将专注于岭回归,因为它存在一个简单的闭式解,且可以实现接近更复杂方法的性能,例如支持向量机(SVM)[8]。训练的目标是找到一个函数 fnof;,它最小化样本和它的回归目标 的平方误差。

(1)

lambda;是控制过拟合的正则化参数,参考SVM。正如前述可知,公式(1)存在闭式解,参考文献[8]。

(2)

其中,数据矩阵 每一行 有一个样本,并且 每一个元素是回归目标 。 是单位矩阵。从4.4节开始,通常量值是复数,我们将不得不进去傅里叶域,只要我们使用公式(2)对应的复数版本,这些也不难处理。

(3)

其中,是Hermitian转置,即 也就是共轭转置,且 是矩阵的复共轭。对于实数,公式(3)变为公式(2)。

通常,必须求解一个大的线性方程组来计算闭式解,但这在实时设置中会变成阻碍。在接下来的一节中我们将看到绕过这个限制的 的特殊情况。

4.2 循环移位 剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239738],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。