用于行人检测的深卷积神经网络外文翻译资料

 2022-05-29 22:55:17

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


用于行人检测的深卷积神经网络

摘要:行人检测是一个热门的研究课题, 因为它对许多应用至关重要, 特别是在汽车、监控和机器人技术领域。尽管有显著的改善, 行人检测仍然是一个开放的挑战, 要求越来越准确的算法。在过去的几年中, 深入学习,特别是卷积神经网络,开始在就精度方面而言的一些计算机视觉任务, 如图像分类, 对象检测和分割中作为技巧的存在, 往往在很大程度上优于以前的黄金标准。本文提出了一种基于深度学习的行人检测系统, 将通用卷积网络与手头的任务相适应。通过深入分析和优化检测管线的每一步, 我们提出了一个比传统方法更优秀的体系结构, 实现了与最先进的方法接近的任务精度, 并且只需要少的计算时间。最后, 我们在NVIDIA JETSON TK1 上测试了我们的系统, 它是一个192核心平台, 被设想成为未来的自驾车汽车的先行者计算大脑。

  1. 介绍

人类只需几眼就能识别物体和人, 识别事件并发现可能危险的情况。对于不同的视觉刺激的正确解释是人类完成非常复杂的任务, 如驾驶车辆或运动的关键。此外, 大量的任务需要在短短的几毫秒内对场景进行分析, 以便及时对这种视觉刺激做出反应。人工智能, 特别是计算机视觉算法,其目的是以单帧或帧序列的形式自动解释场景的视觉内容, , 并做出相应的反应。人体形状或行人的检测是计算机视觉研究人员从至少两个十年前着手处理的最具挑战性的问题之一 [22]。它是从汽车安全到先进的监控系统等一系列高水平应用的关键。过去十年 [18]中,在准确性和效率方面看到了对行人检测系统的重大改进, 这是由于越来越强大但更紧凑的硬件的出现而促成的。

大多数行人检测算法共享相似的计算流程。首先,从原始像素级图像内容开始,他们提取更高级别的空间表示或采用任意复杂变换的特征,以逐个像素或逐个窗口应用。其次,任何给定空间窗口的特征都被输入到一个分类器中,该分类器评估这样一个区域是否描绘了一个人类。此外,通常使用比例空间来检测不同比例的行人,即相对于传感装置的距离。 2003年,Viola和Jones [29]提出了一种基于箱形滤波器的行人检测系统,可以正地应用整体图像。然后将特征,即窗口与给定箱形滤波器卷积的结果,馈送给基于AdaBoost [10]的分类器。 Dalal和Trigg对这个过程进行了改进,提出了梯度直方图(HOG)[3]作为局部图像特征,以供给线性支持向量机,目的是识别包含人类的窗口。这些特征被证明对于手头的任务非常正,代表了更复杂算法的基础。Felzenswalb等人 [9]通过将梯度直方图与可变形零件模型结合,进一步提高了检测精度。特别是,这种方法旨在将人体形状识别为它的部分如躯干,头部等的可变形组合。每个身体部位在其外观方面具有独特的特征,并且可以根据HOG特征和经过适当训练的分类器。这种模型被证明在身体形状和姿势以及部分遮挡方面更加健壮。 Dollar等人[6]建议使用从多个不同渠道提取的特征。每个通道被定义为输入的像素级表示的线性或非线性变换。通道可以捕捉图像的不同局部属性,如角点,边缘,强度,颜色。

除了视觉特征质量方面的改进之外,在降低手头任务的计算复杂度方面取得了很大进展。例如,利用快速尺度 - 空间近似算法,HOG的计算已经显着加速,从而正地估计不同尺度上的局部梯度,从而导致聚合信道特征(ACF)[5]。为了进一步提升行人检测系统的性能,ACF结合了HOG和通道特征,以生成丰富的视觉内容[5]。作为进一步的改进,Nam等人[17]观察到ACF利用基于增强的分类器执行正交分割,即基于单个特征元素的分割。相反,他们建议线性组合不同的特征通道,以消除与数据的相关性,能够执行斜向分割。这种方法导致局部相关信道特征(LDCF)[17],这提高了分类器的性能。

深度神经网络正在迅速革新机器学习和人工智能领域。 他们正在为不同领域的许多异构应用设定新的基准,包括图像理解,语音和音频分析以及自然语言处理,从而填补了人类在几项任务方面的差距[26]。 尽管自20世纪90年代以来一直存在[16],但在过去几年中,它们开花结果,部分原因是强大的并行计算架构的出现以及高效培训算法的发展。 特别是卷积神经网络(CNN)代表了图像分析的革命。 它们被认为是包括图像分类[25],人脸识别[26]和物体检测[11]在内的许多任务的最新技术。

在行人检测的环境下,在过去的几年里,卷积神经网络兴趣激增,因为类似的图像分析任务取得了成功。特别是,物体检测和行人检测共享一条非常相似的流程。对于这两种情况,一些候选区域必须通过滑动窗口方法或更复杂的区域提议算法来识别。然后,考虑对象检测,应分析每个区域以检查其是否包含对象,如果是,则识别此类对象的类别。相反,对于行人检测,应对每个提案进行分析以检查其是否包含人体形状。对于这两个任务,最后的检测阶段可以正地使用适当训练的分类器来完成。 LeCun等人[23]是第一个使用卷积网络来检测行人,提出一种无监督的深度学习方法。 Felzenswalb等人提出的可变形零件模型已经加上了一堆生成的随机神经网络,特别是限制玻尔兹曼机[19]。代替原始特征的深度堆叠网络改善了系统的判别能力,同时保留了可变形零件模型的所有优点,即对姿态和部分遮挡的鲁棒性。这种模型在文献[20]中得到了进一步的改进,作者构建了一个能够进行特征提取,零件变形处理和遮挡处理的深度网络。 Hosang等人[12]建议使用有监督的深度学习方法,调整设计用于图像分类的网络,以检测行人。这种方法在检测精度方面产生了良好的结果,改进了基于诸如LDCF之类的手工特征的最先进的方法的性能。

在深度学习的背景下,想要在任务准确性方面取得好成绩,小细节往往是至关重要的。 单个参数设置的细微差别可能意味着系统整体性能的巨大差异。 在本文中,我们建立在Hosang等人的工作基础上。 [12]完整解剖和分析了他们的行人检测流程。

该论文提出了几项新的贡献:

  • 我们对行人检测流程的大部分阶段进行了优化,提出了可显着提高检测精度的新颖解决方案;
  • 我们在检测精度方面达到了最先进的性能,超越了基于手工功能和深度学习方法的传统方法;我们提出了一种在现代硬件上实时运行的算法的轻量级版本;
  • 我们通过在一个基于图形处理单元的紧凑型计算平台NVIDIA Jetson TK1上实现它,验证了我们的方法,该平台正在被采纳为几款以现代安全系统为特征的汽车原型的计算脑。

本文的其余部分组织如下:第2节介绍我们用于检测行人的流程,详细说明每一步,而第3节报告所有提议的优化,以改善系统的性能。第4节致力于实验评估,而第5节则得出结论。

  1. 行人检测和卷积神经网络的背景

2.1行人检测流程

在过去的二十年中,人们已经提出了许多不同的行人检测方法,并已成功实施商业和军事应用。尽管他们处理原始数据的方式非常不同以获取语义表示和检测人体形状,但他们共享一个类似的数据处理流程。这种流程图的输入是场景的原始像素级表示,而输出由一组不同大小的边界框组成,每个边界框对应于已分析框架内已识别的行人。这种流程图包括三个主要阶段:i)区域建议,ii)特征提取和iii)区域分类,如图1所示。

关于第一阶段,即区域提议,分析整个框架以便提取候选区域,即潜在包含人的图像部分。这种阶段的输入是整个框架,而输出是一组区域,可能具有不同的尺寸和比率。滑动窗口方法是区域提议算法的最简单实例,并且可以进行调整以提取多个比例和纵横比的区域。更复杂的方法是分析视觉内容以过滤出被认为不包含对象或突出内容的区域,从而减少下一阶段需要处理的候选区域的数量。对象[1],选择性搜索[28],与类别无关的对象提议[8]是这类算法的实例。这种算法是通用的,因此不适合行人检测。相反,这个阶段可以用针对行人检测量身定制的轻量级和高效算法来取代,这种算法旨在丢弃大量的负区域,即不包含行人的区域,同时保留尽可能多的正区域[12]。在这种情况下,

图1 行人检测的通用流程

区域建议算法用作粗略过滤器,其显著减少了要分析的区域的数量并因此减少了计算负担。

至于特征提取阶段,已经提出了许多不同的方法,如第1部分所述。这些方法处理数据的方式非常不同,并利用不同的视觉特征,例如局部强度对比度,混合梯度和多重非线性变换 输入数据,分别为Viola-Jones [29],梯度直方图[3]和积分信道特征[6]。 这种阶段的输入是一组候选区域,即输入图像的潜在包含行人的部分,而输出是针对每个输入区域的特征向量,即一组实值或二进制值。 特征向量是候选区域的视觉特征的简介表示。

最后,分类阶段旨在识别候选组内的哪些区域对应于人体形状。 分类器被馈送相对于给定区域的特征向量,并且通常提供指示该区域是否是正的二进制标签,即其包含行人。 像Viola和Jones [29]提出的早期方法利用AdaBoost,而最近的方法则使用支持向量机[3]。 在一些情况下,考虑到基于卷积神经网络的方法,分类器是基于铰链或交叉熵损失函数,分别类似于支持向量机或逻辑回归,同时学习分类器和特征。

2.2卷积神经网络的背景

卷积神经网络在数字识别,图像分类和人脸识别等几项任务中取得惊人的良好表现。 CNN背后的关键思想是自动学习一个复杂的模型,该模型能够从像素级内容中提取视觉特征,利用一系列简单的操作,如过滤,局部对比度归一化,非线性激活,局部池化等。传统方法使用手工制作的特征,即特征提取流程是人类直觉和对原始数据理解的结果。例如,Viola-Jones [29]的特征来自于这样的观察:行人的形状的特征是与身体的轮廓相对应的区域中的像素强度的突然变化。

相反,卷积神经网络不利用人类的直觉,而只依赖于大型训练数据集和基于反向传播的训练过程,再加上诸如梯度下降等优化算法。训练过程旨在自动学习滤波器的权重,以便他们能

图2.在卷积神经网络的每一层获得的特征图的例子。 前面的图层(左)标识简单的结构,如边缘和细节,而下一层识别更复杂的视觉概念。

够从原始图像内容中提取视觉概念,以及合适的分类器。网络的第一层通常识别诸如边缘和细节等低级概念,而最终层能够组合低级特征以识别复杂的视觉概念。卷积神经网络通常采用监督程序来训练,除了学习临时特征之外,还将分类器定义为网络的最后一层,如图2所示。尽管强大而正,但这种模型的可解释性是有限。而且,CNNs是一个由多达数亿个参数组成的非常复杂的模型,需要大量的注释训练

由一个神经元组成,并且充当二元分类器,其确定输入区域是否描绘了行人。这种神经元的输出越高,相应区域包含行人的概率就越高。二进制分类是通过适当地设定这种神经元的输出得分来获得的。

  1. 为行人检测优化深度卷积网络

最近在行人检测中使用卷积神经网络,这种方法的潜力尚未被发现。 接下来我们将介绍我们的流程,并详细说明其各个阶段。在深度学习的背景下,通常很小的细节对于在准确性方面取得良好结果至关重要。通过仔细分析和优化流程的每一步,我们显着提高了基于手工功能的传统方法的性能。

    1. 区域建议

正如第2节介绍的那样,检测流水线的第一阶段在于确定可能描绘行人的候选区域。 这个阶段是计算效率和任务精度的关键。一方面,通过正地丢弃大部分负区域,可以将供给后级的窗口数量减少三个数量级。当需要对计算密集型的卷积神经网络进行特征提取时,这是非常重要的。另一方面,该算法不应该丢弃许多正区域,因为这会严重影响系统的整体准确性。

我们在这个阶段测试了三种不同的策略:

  • 滑动窗口,用于提出候选区域的最朴素的算法。根据这种方法,通过以给定步幅移动的窗口水平和垂直扫描框架。为了保持行人的规模不变,可以提取不同规模的地区。一方面,这种算法可以保证百分之百的回顾,因为它不会过滤出任何正的区域。另一方面,它产生了大量的区域供给以下阶段,这大大增加了计算负担。
  • 选择性搜索[28]是一种通用算法,用于提出可能包含对象的与类别无关的区域。 这种算法在物体检测的背景下已经被成功地利用[11],结合CNN进行特征提取和区域分类。 它充当粗略过滤器,显着减少要由特征提取器处理的区域的数量,从而减少计算负担。
  • 局部相关信道特征(LDCF)[17],即特设行人检测算法。尽管这种算法能够以较高的精度检测行人,但我们希望进一步提高系统的性能,将LDCF作为区域提议算法与神经网络结合使用。特别是,LDCF的输出包含一组可能较大的区域,每个区域都有一个置信度值。一个地区的信心得分越高,这个地区就越有可能包含行人。在置信度分数上设置阈值,允许在精度和回顾之间进行权衡。
    1. 行人检测的微调

学习由多达数亿个参数组成的深度卷积网络需要大量注释的训练数据集。在对象检测的背景下,这些模型通常是通过ImageNet [4]数据集进行训练的,该数据集由用对应于对象的边界框标注的1.2 M图像组成。特别是,地面实况标签可区分1k个不同的物体类别。在行人检测的情况下,具有该维度的注释的训练数据集不公开。尽管如此,在ImageNet上训练的复杂模型被证明是完成与目标分类不同的任务的良好起点[14]。事实上,在ImageNet上训练的第一层架构所提取的功能捕获简单而重要的视觉概念,这些概念相当一般,可以适应其他类型的任务。在这种情况下,通常采用微调方法:从通用神经网络开始,通常执行少量目标数据集的训练时间,以使卷积网络适应新任务。

我们从不同的卷积神经网络开始,卷积神经网络在ImageNet上进行训练并成功地用于物体检测。 然后,我们利用正负区域的注释训练数据集,即分别包含行人或其他类型视觉内容的区域来微调卷积网络和分类器的权重。

    1. 数据预处理和增强

全文共11983字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[11605],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。