Faster R-CNN: 基于RPN的实时目标检测外文翻译资料

 2022-08-12 15:41:16

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


Faster R-CNN: 基于RPN的实时目标检测

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun

摘要:目前最先进的目标检测网络采用候选区域算法来假设目标位置。SPPnet[1]和Fast R-CNN[2]等技术的发展减少了这些检测网络的运行时间,同时也体现了候选区域计算面临了瓶颈。在我们的工作中,我们引入了一个候选区域网络(RPN),它与目标检测网络共享所有的图像卷积特征,因此这一方法产生的候选区域几乎无计算成本。RPN是一个完全卷积的网络,它同时预测每个位置的对象边界和对象得分。RPN通过端到端的训练来产生高质量的候选区域,并被Fast R-CNN用于检测。我们通过共享它们的卷积特征进一步将RPN和Fast R-CNN合并到一个单一的网络——使用最近流行的带有“注意力”机制的神经网络术语来说,RPN告诉合并的网络在哪里查找候选区域。对于非常深的VGG-16模型[3],我们的检测系统在GPU上的帧速率为5fps(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上实现最先进的目标检测精度,每个图像只有300个候选区域。在ILSVRC和COCO 2015的比赛中,Faster R-CNN和RPN是第一名的赢得参赛项目的基础。代码已公开。

关键词:目标检测,候选区域,卷积神经网络

1 引言

近年来,候选区域算法(如[4])和基于区域的卷积神经网络(R-CNNs)[5]的成功推动了目标检测的进展。尽管基于区域的卷积神经网络最初在[5]中提出时耗费计算时间,但是由于在[1]、[2]中提出了共享卷积,它们的成本已经被显著降低。最新的体现,Fast R-CNN[2]在忽略选取候选区域所花费的时间的情况下使用非常深的网络实现了几乎实时的速率[3]。目前,候选区域是最先进的检测系统中的测试时间计算瓶颈。

候选区域方法通常依赖于廉价的特征和推理方案。选择性搜索[4]是最流行的方法之一,它贪婪地采用具有低水平特征的超级像素。然而,与高效检测网络相比,选择性搜索速度慢了一个数量级,采用CPU实现时每幅图像需要花费2秒。边界框方法[6]目前提供了方案质量和速度之间的最佳折衷,每张图像0.2秒。然而,候选区域提取步骤仍然与检测网络一样占用运行时间。

人们可能会注意到,基于快速区域的卷积神经网络利用了GPU,而研究中使用的候选区域方法是在CPU上实现的,这使得运行时间的比较变得不公平。显而易见,采用GPU重新实现网络能够加速计算。这可能是一个有效的工程解决方案,但重新实现时忽略了下游检测网络,从而错过了共享计算的重要机会。

在这篇文章中,我们提出了一个算法上的改进——使用深层卷积神经网络计算候选区域,可以得到一个优雅而有效的解决方案,在给定检测网络的计算量的情况下,方案计算几乎是无成本的。为此,我们引入了新的候选区域网络(RPNs),它与最新的目标检测网络共享卷积层[1][2]。通过在测试时共享卷积,计算候选区域的边际成本很小(例如,每张图像10毫秒)。

我们观察到,基于区域的检测器(如Fast R-CNN)使用的卷积特征图也可以用于生成候选区域。在这些卷积特征的基础上,我们通过添加一些额外的卷积层来构造RPN,这些卷积层同时回归规则网格上每个位置的区域边界和对象得分。因此,RPN是一种完全循环网络(FCN)[7],并且可以针对生成检测区域的任务进行端到端的专门训练。

RPNs被设计用来有效地预测具有大规模和长宽比的候选区域。与使用图像金字塔(图1a)或滤波器金字塔(图1b)的流行方法[1][2][8][9]相比,我们引入了新的“锚定”框作为多尺度和宽高比的参考。我们的方案可以看作是回归金字塔(图1c),它避免了枚举图像或多尺度和长宽比的滤波器。该模型在使用单尺度图像进行训练和测试时表现良好,因此有利于提高运行速度。

图1 解决多个规模和大小的不同方案。

(a)建立图像金字塔和特征映射,并在所有尺度上运行分类器。

(b)具有多个比例/大小的过滤器金字塔在特征图上运行。

(c) 我们在回归函数中使用参考框的金字塔。

为了将RPNs和Fast R-CNN目标检测网络合为一体,我们提出了一种训练方案,在保持候选区域不变的情况下,对候选区域任务进行微调,然后对目标检测进行微调。该方案收敛速度快,并通过在两个任务之间共享卷积特征形成了一个统一的网络。[1]

我们在PASCAL VOC检测基准[11]上对我们的方法进行了综合评估,具有RPNs的Fast R-CNNs比具有强基准的选择性搜索的Fast R-CNNs检测精度更高。同时,我们的方法几乎免除了测试时选择性搜索的所有计算负担。候选区域有效运行时间仅为10毫秒。利用文[3]中昂贵的深度模型,我们的检测方法在GPU上的帧速率仍然是5fps(包括所有步骤),因此在速度和精度上都是一个实用的目标检测系统。我们还报告了在MS COCO数据集[12]上的结果,并研究了使用COCO数据对PASCAL VOC的改进。代码已公开在网站

https://github.com/shaoqingren/faster_rcnn(在MATLAB中)以及

https://github.com/rbgirshick/py faster rcnn(在Python中)。

该手稿的初步版本已在之前出版[10]。自那时起,RPN和Faster R-CNN框架就被采用并推广到其他方法,如3D目标检测[13]、基于局部的检测[14]、实体分割[15]和图像字幕显示[16]。我们的快速有效的目标检测系统也已经在诸如Pinterests[17]这样的商业系统中建立,并报告了用户参与度的改进。

在ILSVRC和COCO 2015比赛中,Faster R-CNN和RPN是ImageNet检测、ImageNet定位、COCO检测和COCO分割的获得第一名的参赛者的方法的基础[18]。RPNs完全学习从数据中提出候选区域,因此可以很容易地从更深更具表现力的特征中获益(如[18]中采用的101层残差网络)。在这些比赛中,其他几家领先的参赛者也使用了Faster R-CNN和RPN。[2]这些结果表明,我们的方法不仅在实际应用中是一种经济有效的解决方案,而且也是提高目标检测精度的有效方法。

2 相关研究

候选对象。有大量关于候选对象方法的文献。候选目标方法的综合调查和比较见[19]、[20]、[21]。广泛使用的候选对象方法包括基于分组超级像素的方法(例如,选择性搜索[4]、CPMC[22]、MCG[23])和基于滑动窗口的方法(例如,对象窗口[24]、边界框[6])。候选对象方法被作为独立于检测器的外部模块(例如,选择性搜索[4]对象检测器、R-CNN[5]和Fast R-CNN[2])。

用于目标检测的深层网络。R-CNN[5]方法通过端到端的训练卷积神经网络来区分候选区域是属于目标区域还是背景区域。R-CNN主要用作分类器,并且它不能找到对象的边界(通过边界框回归的细化除外)。它的准确度依赖于候选区域模块的性能(见[20]中的比较)。已有多篇论文提出采用深层网络来找到对象边界[9][25][26][27]。在OverFeat方法[9]中,训练了一个全连接层来预测单个目标的定位任务的框坐标。然后将全连接层转换为卷积层,用于检测多个类特定对象。MultiBox(多框)方法[26][27]是从网络中产生的一个候选区域,该网络的最后一个全连接层同时预测多个类未知框,概括了OverFeat的“单框”方式。这些类未知框被用作R-CNN的候选[5]。与我们的完全卷积方案相比,多框候选网络被应用于单个图像裁剪或多个大型图像裁剪(例如)。MultiBox不能共享候选区域与检测网络之间的特征。我们将在下文中用我们的方法更深入地讨论OverFeat和MultiBox。在我们工作的同时,开发了用于学习分割候选区的DeepMask(深度掩膜)方法[28]

卷积的共享计算[1][2][7][9][29]在高效、准确的视觉识别方面越来越受到关注。OverFeat论文[9]计算了用于分类、定位和检测的图像金字塔的卷积特征。为了有效地进行基于区域的目标检测,[1]、[30]和语义分割[29]提出了基于共享卷积特征映射的自适应尺寸池方法(SPP)[1]。Fast R-CNN[2]提供了共享卷积特征的端到端检测器培训,并显示了令人信服的准确性和速度。

3 Faster R-CNN

我们的目标检测系统称为快速R-CNN,由两个模块组成。第一个模块是提出候选区域的深度全卷积网络,第二个模块是采用候选区域的Fast R-CNN检测器[2]。整个系统是一个单一的,统一的目标检测网络(图2)。

使用最近流行的神经网络术语来说,RPN模块是带有“注意力”机制的 [31],它告诉Fast R-CNN模块在哪里查找目标。在第3.1节中,我们介绍了候选区域网络的设计和适当性。在第3.2节中,我们介绍了用于训练两个共享特征的模块的算法。

图2 Faster R-CNN是一个单一的、统一的目标检测网络。RPN模块充当这个统一网络的“注意力”。

3.1 候选区域网络(RPN)

RPN获取(任何大小的)图像作为输入并输出一系列矩形候选区域,每个区域有一个对象性得分。[3]我们用完全卷积网络[7]模拟这个过程,我们将在这一节描述。因为我们的最终目标是与Fast R-CNN目标检测网络共享计算[2],所以我们假设两个网络共享一组共同的卷积层。在我们的实验中,我们研究了具有五个共享卷积层的Zeiler和

Fergus模型(ZF),以及具有13个共享卷积层的Simonyan和Zisser-man模型(VGG-16)。

为了生成候选区域,我们在最后一个共享卷积层输出的卷积特征图上滑动一个微型网络。该微型网络以卷积特征图的空间窗口作为输入。每个滑动窗口都映射到一个低维特征(ZF为256-d,VGG为512-d,伴随ReLU[33])。这个特征被输入到两个全连接的兄弟层中——一个候选框回归层(reg)和一个候选框分类层(cls)。在本文中,我们使用,注意到输入图像上的有效接收区域很大(ZF和VGG分别为171和228像素)。在图3(左)中展示了该微型网络。请注意,由于微型网络以滑动窗口方式运行,因此全连接层在所有空间位置共享。这一结构是由两个兄弟的卷积层(分别用于reg和cls)组成卷积层而自然实现的。

3.1.1 Anchors(参考框)

在每个滑动窗口的位置,我们同时预测多个候选区域,其中每个位置的最大可能候选区域数表示为k。因此,reg层有4k个输出,编码k个框的坐标,而cls层输出2k个分数,估计每个候选区域的是检测目标的概率。[4]k个候选区域是相对于k个参考框(我们称之为anchors)而参数化的。anchors位于所述滑动窗口的中心,并且与比例和纵横比相关(图3,左)。默认情况下,我们使用三个比例和三个长宽比,在每个滑动位置产生个anchors。对于大小为(通常到2400)的卷积特征图,总共有个anchors。

平移不变的anchors。我们的方法的一个重要特征是它是平移不变的,无论是在anchors还是计算与anchors相关的候选区域的函数方面。如果平移图像中的一个对象,候选区域相应地平移,并且相同的函数应该能够预测候选区域。我们的方法保证了平移不变性。[5]作为对比,MultiBox方法[27]使用k-均值生成800个anchors,这些anchors不是平移不变的。所以MultiBox不能保证在平移对象时生成相同的候选区域。

平移不变性也降低了模型规模MultiBox有维全连接输出层,然而我们的方法在个anchors的情况下有维卷积输出层[6]。因此,我们的输出层有个参数(对VGG-16来说有个),比有(MultiB

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236826],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。