英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
附录A 译文
通过渐近定位拟合学习高效单级行人探测器
摘要
虽然基于R-CNN的快速两级探测器在行人探测精度方面有显着提升,但对于实际应用来说仍然很慢。一种解决方案是将该工作流程简化为单级检测器。 然而,目前的单级探测器(例如SSD)在普通行人检测基准上还没有表现出具有竞争力的准确性。本文是一个成功的行人探测器,享受SSD的速度,同时保持更快的R-CNN的准确性。 具体而言,提出了一种结构简单但有效的模块,称为渐近局部化拟合(ALF),它堆叠了一系列预测器,逐步直接演化SSD的默认锚框,以改进检测结果。因此,在培训期间,后者预测者可以享受更多更优质的阳性样本,同时可以通过增加IoU阈值来开采更多的负面因素。 最重要的是,设计了一个高效的单级行人检测架构(表示为ALFNet),在CityPersons和Caltech上实现了最先进的性能,这是两个最大的行人检测基准,因此产生了一个有吸引力的行人探测器 在准确性和速度方面。 代码可在
https://github.com/VideoObjectSearch/ALFNet。
关键词:行人检测;卷积神经网络;渐近定位拟合
1简介
行人检测是许多实际应用中的关键问题,包括自动驾驶系统和监视系统,并且需要具有高精度和实时速度。 传统上,在滑动窗口范例中扫描图像是对象检测的常见做法。 在这个范例中,设计手工制作的特征[11,2,10,29]对于最先进的性能至关重要,这仍然是一项艰巨的任务。
除了专注于手工艺特征的早期研究之外,RCNN [17]首先将CNN引入物体检测。在RCNN之后,Faster-RCNN [ 32 ]提出了区域提案网络(RPN)在统一框架中生成提案。除了其上通用对象检测成功,大量适于更快-RCNN探测器被提出并实现了更高的精确度对行人检测[42,44]。然而,当考虑处理速度时,Faster-RCNN仍然不能令人满意,因为它需要两阶段处理,即提议生成和ROIpooling特征的分类。或者,作为代表性的单级检测器,单次多盒检测器(SSD)[27]丢弃Faster-RCNN [32] 的第二阶段,并直接将默认锚点回归到检测框中。虽然速度更快,但SSD[27]并未在常见的行人检测基准测试中提供有竞争力的结果(例如CityPersons [44]和Caltech [12])。它激励我们思考更快的R-CNN中的关键是什么,以及这个密钥是否可以转移到SSD。由于SSD和更快的R-CNN都有默认的锚箱,我们猜测关键是默认锚箱的两步预测,RPN是一步,ROI预测是另一步,而不是ROI池模块。最近,Cascade R-CNN [6]已经证明通过在RPN之后应用多步ROI池和预测可以进一步改善更快的R-CNN。此外,另一项名为RefineDet [45]的最新研究表明,在RPN之后,ROI池可以被卷积传输连接块取代。因此,似乎可以在多步骤中直接处理SSD中的默认锚点,以获得更简单的解决方案,既没有RPN也没有ROI。
基于SSD的行人检测的另一个问题是使用单个IoU阈值进行训练。一方面,较低的IoU阈值(例如0.5)有助于定义足够数量的阳性样本,尤其是当训练数据中的行人实例有限时。例如,如图1 (a)所示,Caltech上的增强训练数据[42]具有42782个图像,其中约80%的图像没有行人实例,而遗体每个图像仅有1.4个行人实例。然而,在训练期间单个较低的IoU阈值将在推理期间导致许多“接近但不正确”的误报,如级联R-CNN所示[6]。另一方面,训练期间较高的IoU阈值(例如0.7)有助于在推理期间拒绝接近的假阳性,但在较高的IoU阈值下存在较少匹配的阳性,如Cascade R-CNN所指出的,并且也在图1(b)。这种正面的负面定义困境使得很难培养出高质量的SSD,但这个问题通过更快的R-CNN中的两步预测得以缓解。
上述分析激励我们通过多步骤培训SSD,改进本地化并提高IoU阈值。因此,本文提出了一种简单但有效的模块,称为渐近定位拟合(ALF)。它直接从SSD中的默认锚点开始,逐步地逐步演化所有锚点框,将更多的锚点框推向接近真实的框。最重要的是,构建了一种新颖的行人检测体系结构,表示为渐近定位拟合网络。
图1.(a)[43] 新注释的加州理工学院培训数据集中具有不同行人实例数的图像百分比。(b)不同IoU阈值的正锚数。每个条形表示与高于相应IoU阈值的任何基础事实匹配的默认锚点的数量。
(ALFNet)。ALFNet显着提高了行人检测精度,同时保持了单级探测器的效率。对两个大型行人检测数据集进行了大量实验和分析,证明了该方法的有效性,不依赖于骨干网络。
综上所述,本文的主要贡献在于:(1)提出了一种称为ALF的模块,利用渐近定位的多步预测来克服行人检测中单级探测器的局限性; (2)所提出的方法在两个最大的行人基准(即CityPerson [44],Caltech [12])上实现了最新的最新结果。
2 方法
2.1 初步
我们的方法建立在单阶段检测框架之上,这里我们简要回顾一下这种方法。
在单级探测器中,从骨干网络(例如VGG [36],ResNet [18])提取具有不同分辨率的多个特征图,这些多尺度特征图可以定义如下:
, (1)
其中我表示输入图像,fn(.)是从基站网络或附加的特征提取层的现有层,和Phi;n是从所生成的特征地图第n层。这些特征图的尺寸逐渐减小,因此多尺度物体检测在不同分辨率下是可行的。除了这些多尺度特征图之外,检测可以表示为:
(2)
(3)
其中Bn 是在锚定框预先定义第n层的特征地图细胞,pn(.)通常是平移的卷积预测第n个特征映射Phi;n到的检测结果。通常,pn(.)包含两个元素,clsn(.)预测分类分数, regrn(.)预测与第n层关联的默认锚框的缩放和偏移,最后获得退化框。F(.)是从所有层收集所有回归框并输出最终检测结果的函数。有关详细信息,请参阅[27]。
我们可以找到Eq.(2)在Faster-RCNN中扮演与RPN相同的角色,除了RPN 在最后一层的特征图上应用卷积预测器pn(.)用于所有尺度的锚(表示为B),其可以表示为:
(4)
在两阶段方法中,来自方程式的区域提案。(4)由ROI池进一步处理,然后馈入另一个检测子网络进行分类和回归,因此比单级方法更准确但计算效率更低。
2.2 渐近定位拟合
从上面的分析可以看出,单阶段方法不是最理想的,主要是因为很难要求单个预测器pn(.)在特征图上均匀铺设的默认锚框上完美地执行。我们认为合理的解决方案是堆叠的一系列预测指标 pt (.)。
图2. 来自CityPersons [44]训练数据的两个例子。绿色和红色矩形分别是锚盒和groundtruth盒。图像左上角的值表示在IoU阈值0.5下与groundtruth匹配的锚箱数量,图像右上角的值表示与所有匹配锚箱的groundtruth重叠的平均值。
施加在粗到细锚箱beta;tn吨 ,其中吨表示tth个步骤。在这种情况下,Eq.3 可以重新制定为:
(5)
(6)
其中T是总的步骤和B的数目beta;0n表示缺省锚箱铺在nth层。在每个步骤中,使用回归的锚框Ptn(.)而不是默认的锚框 beta;tminus;1来优化预测器。换句话说,随着逐渐精炼的锚箱,这意味着可以获得更多的阳性样本,后期步骤中的预测变量可以用更高的IoU阈值进行训练,这有助于在推理期间产生更精确的定位[6]。该策略的另一个优点是在所有步骤中用不同IoU阈值训练的多个分类器将以“多专家”方式对每个锚箱进行评分,因此如果适当融合,则得分将比单个分类器更有信心。鉴于这种设计,可以减轻当前单级探测器的局限性,从而有可能在精度和效率方面超越两级探测器。
图2给出了两个示例图像,以证明所提出的ALF模块的有效性。从图2(a)可以看出,在IoU阈值为0.5的情况下,只有7和16个默认锚框分别被指定为正样本,这个数字随着ALF步长的增加而逐渐增加,并且均值的值与groundtruth也在上升。它表明前预测器可以将更多IoU的锚箱移交给后者。
图3.(a)ALFNet架构,由四级特征映射构成,用于检测不同大小的对象,其中前三个黄色块来自骨干网,绿色块是添加的卷积层到截断的末尾骨干网。(b)卷积预测器块(CPB),它附加到每个级别的特征映射,以将默认锚框转换为相应的检测结果。
2.3 总体框架
在本节中,我们将介绍建议的ALFNet行人检测管道的详细信息。
我们的检测网络架构的细节如图3 所示。我们的方法基于完全卷积网络,该网络产生一组边界框和置信度分数,指示是否存在行人实例。基础网络层从用于图像分类的标准网络中截断(例如ResNet-50 [18]或MobileNet [20])。服用RESNET-50作为一个例子,我们首先从发出的最后的层中的特征地图分支阶段3,4和5(记为Phi;3, Phi;4 和 Phi;5,图3中的黄色块)和在端部再安装一个卷积层以产生Phi;6,产生辅助分支(图3中的绿块检测是在执行 {Phi;3, Phi;4, Phi;5, Phi;6},与由8,16,32,64 WRT输入图像,分别采样尺寸。对于方案生成,锚盒用的宽度{(16,24),(32,48),(64,80),(128,160)}像素和单个宽高比为0.41,分别分配给每个级别的特征图。然后,我们附加图3(b)所示的卷积预测器块(CPB),其具有用于边界框分类和回归的若干堆叠步骤。
2.4 培训和推理
训练锚箱被分配为阳性小号S 如果与任何地面实况白条在阈值uh以上,和底片小号如果白条低于阈值ul。在训练期间忽略那些在[uh,ul]中具有IoU的锚点。我们为渐进步骤分配不同的IoU阈值集 {ul, uh},这将在我们的实验中讨论。
在每个步骤t,卷积预测器通过结合两个目标的多任务损失函数来优化:
(7)
其中回归损失lloc与FasterRCNN [ 32 ] 采用的光滑L1损失相同,lcls是二元分类的交叉熵损失,lambda;是权衡参数。受[ 26 ]的启发,我们还将焦点权重添加到分类损失lcls中以对抗正负不平衡。该升CLS的公式表示为:
(8)
其中Pi是样本i的正概率,alpha;和gamma;是聚焦参数,实验设置为= 0。在[26]中提出了alpha;=0.25和gamma;= 2。通过这种方式,简单样本的损失贡献被降低了权重。
为了增加训练数据的多样性,每个图像通过以下选项进行增强:在随机颜色失真和水平图像翻转之后,我们首先裁剪出原始图像大小为[0.3,1]的补丁。然后调整贴片的大小,使得短边具有N个像素(对于CityPersons,N = 640,对于Caltech,N = 336),同时保持图像的纵横比。
推理 ALFNet只涉及通过网络向前馈送图像。对于每个级别,我们从最终预测器和所有预测器的混合置信度得分中获得回归的锚箱。我们首先过滤掉分数低于0.01的盒子,然后将所有剩余的盒子与非最大抑制(NMS)合并,阈值为0.5。
3 结论 全文共35903字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[452428],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。