英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
更快的 R-CNN: 通过候选区域网络实现实时目标检测
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun
摘要——目前最先进的目标检测神经网络都依赖region proposals算法来假设目标的位置。 SPP-net [1] 和 Fast R-CNN [2] 所取得的进步已经极大地减少了这些检测网络的运行时间,同时也暴露出region proposal计算的瓶颈。本文中,我们提出了一种候选区域网络( Region Proposal Network ,简称RPN),它和检测网络共享整张图像的卷积特征,从而使得region proposals 的计算几乎不花时间。RPN 是一种全卷积网络,它在每个位置都能够同时预测目标边界和目标位置匹配度得分。RPN 是端到端训练,从而生成高质量的region proposals用于 Fast R-CNN 的检测。我们通过共享卷积特征进一步将RPN 和 Fast R-CNN 合并成一个网络,使用最近很流行的神经网络术语—“attention”机制,RPN组件能够告诉这个统一网络应该注意哪些位置。对于非常深的VGG-16模型[19],我们的检测系统在GPU上的帧率为5fps(包含所有步骤),同时仅用每张图200个proposals取得了PASCAL VOC2007,2012以及MS COCO数据集的最好检测精度。
索引术语——目标检测,Region Proposal,卷积神经网络。
1 引言
最近在目标检测中取得的进步都是由region proposals方法(例如[4])和基于区域的卷积神经网络(R-CNNs)[5]取得的成功来推动的。虽然基于区域的CNN在[5]中刚提出时在计算上开销很大,幸好后来这个开销通过proposals之间共享卷积[1,2]大大降低了。当忽略了生成region proposals的时间时,最近的Fast R-CNN[2]用非常深的网络[3]实现了近乎实时检测的速率。现在,proposals是最先进检测系统中的计算瓶颈。
Region proposal方法典型地依赖于开销小的特征和经济推理方案。选择性搜索(Selective Search,简称SS)[4]是最受欢迎的方法之一,它贪婪地合并基于设计的低级特征的超级像素。与高效检测网络[2]相比,SS要慢一个数量级,在CPU上执行时大约每个图像2s。EdgeBoxes[6]在proposal 质量和速度之间做出了目前最好的权衡,大约每个图像0.2s。但无论如何,region proposal步骤花费了和检测网络差不多的运行时间。
有人可能会注意到,Fast R-CNN利用了GPU的优点,而region proposal方法在研究中是在CPU上实现的,使得这种运行时间的比较不公平。一种明显加速proposal计算的方法是在GPU上实现它,这可能是一种有效的工程解决方案,但这个方法忽略了其后的检测网络,因而也错失了共享计算的重要机会。
本文中,我们改变了算法——用深度卷积神经网络计算proposals——这是一种简洁有效的解决方案,考虑到检测网络的计算,proposal计算几乎没有成本。为了这个目的,我们介绍新颖的候选区域网络(Region Proposal Networks,简称RPN),它与最先进的目标检测网络[1,2]共享卷积层。在测试时,通过共享卷积层,计算proposals的边际成本是很小的(例如,每个图像10ms)。
我们观察到,基于区域的检测器所使用的卷积特征映射,如Fast R-CNN,也可以用于生成region proposals。在这些卷积特征之上,我们通过添加一些额外的卷积层来构建RPN,这些卷积层同时在规则网格上的每个位置上回归区域边界和目标分数。因此,RPN是一种完全卷积网络(FCN)[7],并且可以针对生成检测proposals的任务进行端到端的训练。
RPN旨在有效预测具有广泛尺度和纵横比的region proposals。与使用图像金字塔(图1,a)或过滤器金字塔(图1,b)的流行方法[8],[9],[1]相比,我们引入了新颖的“锚”框,用作多种尺度和纵横比的参考。我们的方案可以被认为是回归参考金字塔(图1,c),它避免了枚举多个比例或长宽比的图像或过滤器。这个模型在使用单一尺度的图像进行训练和测试时运行良好,从而有利于运行速度。
特征图
多尺度图像
图像
图像
多个参考
特征图
图像
多尺度滤波器
特征图
(a) (b) (c)
图1:解决多尺度的不同方案。(a)构建图像和特征映射金字塔,分类器以各种尺度运行。(b)在特征映射上运行具有多个尺度/大小的滤波器的金字塔。(c)我们在回归函数中使用参考边界框金字塔。
为了将RPNs与Fast R-CNN [2]目标检测网络相结合,我们提出了一种训练方案,在微调region proposals任务和微调目标检测之间进行交替,同时保持proposals的固定。这种方案快速收敛,并产生一个具有卷积特性的统一网络,两个任务之间共享卷积特征。
我们综合评估了我们在PASCAL VOC检测基准[11]上的方法,其中具有快速R-CNN的RPN产生的检测精度优于使用Fast R-CNN进行选择性搜索。同时,我们的方法在测试时几乎免除了选择性搜索的所有计算负担——proposals的有效运行时间仅为10毫秒。使用[3]的昂贵深度模型,我们的检测方法在GPU上仍然具有5fps的帧速率(包括所有步骤),因此在速度和准确性方面这是一个实际的目标检测系统。我们还报告了MS COCO数据集[12]的结果,并使用COCO数据研究了PASCAL VOC的改进。
这个手稿的初步版本是以前发表的[10]。从那时起,RPN和Faster R-CNN的框架已经被采用并推广到其他方法,如3D目标检测[13],基于部分的检测[14],实例分割[15]和图像字幕[16]。我们的快速和有效目标检测系统也已经建立在商业系统上,如Pinterest的[17]用户参与改进报告。
在ILSVRC和COCO 2015比赛中,Faster R-CNN和RPN是在ImageNet检测,ImageNet本地化,COCO检测和COCO分割轨道几个参赛中获得第一名[18]的基础。RPN完全从数据中学习提取区域,因此可以从更深入和更具表达性的特征(例如[18]中采用的101层残留网络)中轻松获益。Faster R-CNN 和 RPN 也被这些比赛中的其他几个主要参赛者使用。这些结果表明,我们的方法不仅是一个实用的高性价比解决方案,而且是一个提高目标检测精度的有效方法。
2 相关工作
目标 Proposals。目标proposal方法方面有大量的文献。目标proposal方法的综合调查和比较可以在[19],[20],[21]中找到。广泛使用的目标proposal方法包括基于超像素分组(例如,选择性搜索[4],CPMC[22],MCG[23])和那些基于滑动窗口的方法(例如窗口中的目标[24],EdgeBoxes[6])。目标proposal方法被采用为独立于检测器(例如,选择性搜索[4]目标检测器,R-CNN[5]和Fast R-CNN[2])的外部模块。
用于目标检测的深度网络。R-CNN方法[5]端到端地对CNN进行训练,将候选区域分类为目标类别或背景。R-CNN主要作为分类器,并不能预测目标边界(除了通过边界框回归进行细化)。其准确度取决于region proposal模块的性能(参见[20]中的比较)。一些论文提出了使用深度网络来预测目标边界框的方法[25],[9],[26],[27]。在OverFeat方法[9]中,训练一个全连接层来预测假定单个目标定位任务的边界框坐标。然后将全连接层变成卷积层,用于检测多个类别的目标。MultiBox方法[26],[27]从网络中生成region proposals,网络最后的全连接层同时预测多个类别不相关的边界框,并推广到OverFeat的“单边界框”方式。这些类别不可知的边界框被用作R-CNN的proposals [5]。与我们的全卷积方案相比,MultiBox提议网络适用于单张裁剪图像或多张大型裁剪图像(例如224times;224)。MultiBox在 proposals和检测网络之间不共享特征。稍后在我们的方法上下文中会讨论OverFeat和MultiBox。与我们的工作同时进行的,DeepMask方法[28]是为学习分割proposals而开发的。
卷积的共享计算[9],[1],[29],[7],[2]已经越来越受到人们的关注,因为它可以有效而准确地进行视觉识别。OverFeat论文[9]计算图像金字塔的卷积特征用于分类,定位和检测。共享卷积特征映射的自适应大小池化(SPP)[1]被开发用于有效的基于区域的目标检测[1],[30]和语义分割[29]。Fast R-CNN[2]能够对共享卷积特征进行端到端的检测器训练,并显示出令人信服的准确性和速度。
3 FASTER R-CNN
我们的目标检测系统,称为Faster R-CNN,由两个模块组成。第一个模块是一个深度全卷积网络,用来生成候选区域;第二个模块是Fast R-CNN检测器[2],它使用前一步生成的候选区域。整个系统是一个单一的,统一的目标检测网络(图2)。通过使用最近流行的神经网络术语“Attention”[31]机制,RPN模块可以告知Fast R-CNN模块需要注意看哪些地方。在第3.1节中,我们介绍了region proposals网络的具体设计和属性。在第3.2节中,我们介绍训练这两个共享特征模块的算法。
classifier
Roi pooling
proposals
image
Region Proposal Network
Feature maps
conv layers
input image
图2:Faster R-CNN是一个单一,统一的目标检测网络。RPN模块作为这个统一网络的“Attention”。
3.1 候选区域网络
区域候选网络(RPN)以任意大小的图像作为输入,输出一组矩形的目标proposals,每个proposals都有一个目标得分。我们用全卷积网络[7]对这个过程进行建模,我们将在本节进行描述。因为我们的最终目标是与Fast R-CNN目标检测网络[2]共享计算,所以我们假设两个网络共享一组共同的卷积层。在我们的实验中,我们研究了具有5个共享卷积层的Zeiler和Fergus模型[32](ZF)和具有13个共享卷积层的Simonyan和Zisserman模型[3](VGG-16)。
为了生成region proposals,我们在最后的共享卷积层输出的卷积特征图上滑动一个微型网络。这个微型网络将输入卷积特征图的ntimes;n空间窗口作为输入。每个滑动窗口映射到一个低维特征(ZF为256维,VGG为512维,后面是ReLU[33])。这个特征被输入到两个子全连接层——一个边界框回归层(reg)和一个边界框分类层(cls)。在本文中,我们使用n=3,注意输入图像上的有效感受野是很大的(ZF和VGG分别为171和228个像素)。这个微型网络在图3(左)中的一个位置上进行了说明。请注意,因为微型网络以滑动窗口方式运行,所有全连接层通过空间位置共享。这种架构通过一个ntimes;n卷积层,后面是两个子1times;1卷积层(分别用于reg和cls)自然地实现。
18 个得分
36个 坐标
9个锚盒
cls 层
reg 层
256维
中间层
滑动窗口
卷积特征图
993
汽车 : 1.000
人 : 0.992
马 : 0.993
人 : 0.979
狗 : 0.997
巴士 : 0.996
船 : 0.970
人 : 0.736
人 : 0.983
人 : 0.983
人 : 0.989
图3:左:候选区域网络(RPN)。右:在PASCAL VOC 2007测试集上使用RPN proposals的示例检测。我们的方法可以检测各种尺度和长宽比的目标。
3.1.1 锚点
在每个滑动窗口位置,我们同时预测多个region pr
全文共10702字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[16076],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。