英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
信号处理:图像通信
摘要:行人检测是一个非常受欢迎的研究课题,因为它对于许多应用,特别是在汽车,监控和机器人领域尤为重要。 尽管有显着的改进,行人检测仍然是一个开放的挑战,需要更多更精确的算法。 在过去的几年里,深度学习,尤其是卷积神经网络在许多计算机视觉任务如图像分类,目标检测和分割的准确性方面表现出来,通常比以前的黄金标准更胜一筹并大幅度上涨。 在本文中,我们提出了一个基于深度学习的行人检测系统,使通用卷积网络适应手头的任务。 通过彻底分析和优化检测流水线的每一步,我们提出了一种超越传统方法的体系结构,实现了接近于最先进方法的任务精度,同时需要较少的计算时间。 最后,我们使用NVIDIA Jetson TK1(一款192核心平台)来测试系统,该平台被设想为未来自动驾驶汽车的先驱计算大脑。
关键词:深度学习、行人检测、卷积神经、网络优化
文章信息
文章历史:
2015年10月15日收到修改后的2016年
2月27日收到2016年5月7日接受
2016年5月13日在线提供
介绍
人类只需要几眼就可以识别物体和人,识别事件并检测可能的危险情况。 不同的视觉刺激的正确解释是人类完成非常复杂的任务,如驾驶汽车或玩运动的关键。 而且,大量的任务需要在几十毫秒内分析场景,以便及时对这种视觉刺激做出反应。 人工智能,特别是计算机视觉算法的目标是自动解释一个场景的视觉内容,以单个帧或一系列帧的形式,并作出相应的反应。 人类形状或行人的检测是计算机视觉研究人员至少在二十年以前解决的最具挑战性的问题之一。 从汽车安全到先进的监控系统,这是一系列高级应用的关键。 过去的十年行人检测系统在准确性和效率两方面都有了显着的改进,而且越来越强大而紧凑的硬件的出现促成了行人检测系统的发展。
大多数行人检测算法共享相似的计算流水线。 首先,从原始像素级图像内容开始,它们提取更高级别的空间表示或采用任意复杂变换的特征,以逐个像素或逐个窗口地应用。 其次,任何给定的空间窗口的特征被馈送到分类器,评估这样的区域是否描绘了人类。 此外,通常使用比例尺空间来检测不同尺度的行人,即相对于传感装置的距离。 2003年,维奥拉和琼斯 提出了一种基于箱形过滤器的行人检测系统,可以有效地应用于整体图像。 然后将特征(即窗口与给定箱形滤波器的卷积的结果)馈送给基于AdaBoost的分类器。 达拉尔和Triggs rene的过程中,提出梯度直方图(HOG) 作为局部图像特征,被馈送到旨在识别包含人类的窗口的线性支持向量机。 这些特征被证明对于手头的任务非常有效,代表了更复杂算法的基础。 Felzenswalb等人 通过将梯度直方图与可变形部分模型组合,进一步提高了检测精度。 特别地,这样的方法旨在将人体形状识别为其部分如躯干,头部等的可变形组合。每个身体部位在其外观方面具有奇特的特征,并且可以根据HOG特征和一个训练有素的老师。 这样的模型被证明在身体形状和姿态以及部分遮挡方面更加健壮。 Dollaacute;r等人 建议使用功能从多个不同的渠道提取。 每个通道被定义为输入像素级表示的线性或非线性变换。 通道可以捕捉图像的不同局部属性,如角点,边缘,强度,颜色。
除了视觉特征质量的改进之外,在降低手头任务的计算复杂度方面已经取得了很大的进展。 例如,HOG的计算已经利用快速尺度 - 空间近似算法显着地加速,以便有效地估计不同尺度上的局部梯度,导致聚集信道特征(ACF)。 为了进一步提高行人检测系统的性能,ACF结合了HOG和通道功能,以生成丰富的视觉内容。 作为进一步的改进,Nam等人 观察ACF利用基于提升的分类器执行正交分割,即基于单个特征元素的分割。 相反,他们提出线性组合不同的特征通道,以消除与数据的相关性,能够执行斜向分割。 这种方法导致局部相关信道特征(LDCF),这提高了分类器的性能。
深度神经网络正在迅速革新机器学习和人工智能的世界。 他们正在为不同领域的多种异构应用设置新的基准,包括图像理解,语音和音频分析以及自然语言处理。 尽管自从20世纪90年代左右,在过去的几年里,它们开花结果,部分原因是强大的并行计算架构的出现和有效的训练算法的发展。 特别是卷积神经网络(CNN)代表了图像分析的革命。 他们被认为是包括图像分类在内的许多任务的最先进的技术, 人脸识别和物体检测。
在行人检测的情况下,在过去的几年中,卷积神经网络兴趣激增,因为类似的图像分析任务的成功。特别是物体检测和行人检测共享一个非常相似的流水线。 对于这两种情况,一些候选区域必须通过滑动窗口方法或更复杂的区域提议算法来识别。 然后,考虑到对象检测,每个区域都应该被分析,以检查它是否包含一个对象,如果是,则识别这个对象的类别。 相反,对于行人检测,每个提案都应该进行分析,以检查其是否包含人体形状。 对于这两个任务,最后的检测阶段可以有效地使用经过适当训练的分级。LeCun等人是第一个使用卷积网络来检测行人,提出了一个无监督的深度学习方法。Felzenswalb等人提出的可变形零件模型 已经加上了一堆生成的随机神经网络,特别是限制玻尔兹曼机。 一系列网络代替原始特征提高了系统的判别能力,同时保留了可变形零件模型的所有优点,即对姿态和部分遮挡的鲁棒性。 这种模式在进一步的改进中作者构建了一个能够执行特征提取,零件变形处理和遮挡处理的深度网络。 Hosang et al。建议使用有监督的深度学习方法,适应图像分类设计的网络,以检测行人。这种方法在检测精度方面产生了良好的结果,改进了基于诸如LDCF之类的手工特征的最新方法的性能。
在深度学习的背景下,小细节往往是至关重要的。
任务准确性方面取得良好的效果。单个参数设置的细微差别可能意味着一个很大的差异系统的整体性能。在本文中,我们基于Hosang等人的工作。完全解剖和分析他们的行人检测管道。
本文提出了几个新的贡献:
- 我们对行人检测管线的大部分阶段进行了优化,提出了显着提高检测精度的新颖解决方案;
bull;
bull;
- 我们在检测精度方面达到了最先进的性能,超越了基于手工特征和深度学习方法的传统方法;
bull;
- 我们提出了一个在现代硬件上实时运行的算法的轻量级版本;我们通过在一个基于图形处理单元的紧凑计算平台NVIDIA Jetson
bull;
- TK1上实现它,验证了我们的方法,该平台正在被采纳为几个具有现代安全系统的汽车原型的计算大脑。
本文的其余部分安排如下:第二节介绍了我们用于检测行人的管道,并详细说明了每个步骤第3节 报告所有提议的优化,改善系统的性能。仲 - 4致力于实验性评价,而结论则在第5节.
行人检测和卷积神经网络的背景
2.1行人检测管道
在过去的二十年里,人们已经提出了许多不同的行人检测方法,并已经成功地用于商业和军事应用。 尽管他们处理原始数据的方式有很大不同,以获得语义表示和检测人体形状,但他们共享一个类似的数据处理流水线。 这种管线的输入是场景的原始像素级表示,而输出由一组不同大小的边界框组成,每个边界框对应于在分析的框架内被识别的行人。 这样的管道包括三个主要阶段:i)区域建议,ii)特征提取和iii)区域分类,如图所示图。1.
至于第一阶段,即区域建议,则分析整个框架以提取候选区域,即可能包含人的图像的部分。 这个阶段的输入是整个框架,而输出是一组区域,可能具有不同的尺寸和比率。 滑动窗口方法是区域提议算法的最简单实例,并且可以进行调整以提取多个比例和纵横比的区域。 更复杂的方法是对视觉内容进行分析,以排除被认为不包含对象或突出内容的区域,从而减少下一阶段待处理候选区域的数量。 对象性,选择性搜索,与类别无关的对象提议是这类算法的实例。 这种算法是通用的,因此不适合行人检测。 相反,这个阶段可以用适合于行人检测的轻量级和高效的算法代替,其目的在于丢弃大量的负面区域,即不包含行人的负面区域,同时保留尽可能多的正面区域。 在这种情况下
图1.用于行人检测的通用管道
区域提议算法充当粗略过滤器,其显着减少了要分析的区域的数量并因此减少了计算负担。
至于特征提取阶段,已经提出了许多不同的方法,如上所述第一节。 这种方法处理数据的方式非常不同,利用了不同的视觉特征,如局部强度对比度,混合梯度和输入数据的多个非线性变换,例如Viola-Jones,梯度直方图 和整体渠道功能, 分别。 这个阶段的输入是一组候选区域,即输入图像的可能包含行人的部分,而输出是针对每个输入区域的特征向量,即一组实数值或二进制值。 特征向量是候选区域的视觉特征的紧凑表示。
最后,分类阶段旨在识别候选集合中的哪些区域对应于人的形状。 分类器被赋予相对于给定区域的特征向量,并且典型地提供指示该区域是否是正面的二进制标签,即其包含行人。 早期的方法,如中提琴和琼斯提出的方法 利用AdaBoost,而更新的方法使用支持向量机。 在一些情况下,考虑基于卷积神经网络的方法,分类器基于铰链或交叉熵损失函数,分别类似于支持向量机或逻辑回归,同时学习分类器和特征。
2.2.卷积神经网络的背景
卷积神经网络在数字识别,图像分类和人脸识别等几项任务中录得惊人的良好表现。 CNN背后的关键思想是自动学习一个复杂的模型,它能够从像素级内容中提取视觉特征,利用一系列简单的操作,如过滤,局部对比度归一化,非线性激活,局部共享等。 传统方法使用手工特征,即特征提取流水线是人类对原始数据直觉和理解的结果。 例如,Viola-Jones 特征来自于观察到行人的形状的特征在于对应于身体轮廓的区域中像素强度的突然变化。
相反,卷积神经网络不利用人类的直觉,而只依赖大量的训练数据集和基于反向传播的训练过程,再加上梯度下降等优化算法。 训练过程旨在自动学习两个过滤器的权重,以便他们能够从原始图像内容中提取视觉概念,以及合适的分类器。 网络的第一层通常识别诸如边缘和细节的低级概念,而最终层能够组合低级特征以识别复杂的视觉概念。 卷积神经网络通常经过训练,借助于监督程序,除了学习自组织特征之外,还将分类器定义为网络的最后一层,如图2。 尽管强大而有效,但这些模型的可解释性是有限的。 此外,由非常复杂的模型组成
数以亿计的参数,CNN需要大量的注释训练数据集才能产生准确的结果。
在行人检测的情况下,最后一层通常仅由一个神经元组成,并且作为二元分类器来确定输入区域是否描绘了行人。 这样的神经元的输出越高,相应区域包含行人的概率就越高。 二元分类是通过适当地限定这种神经元的输出分数来获得的。
3.深度卷积网络优化行人检测
在行人检测中使用卷积神经网络是最近的事情,这种方法的潜力尚未被发现。 下面我们将介绍我们的管道,彻底说明其所有阶段。 在深度学习的背景下,通常很小的细节对于在准确性方面取得好的结果是关键的。 通过仔细分析和优化管道的每一步,我们显着提高了基于手工功能的传统方法的性能。
3.1地区提案
正如介绍的那样第二节,检测管道的第一阶段在于确定可能描绘行人的候选区域。 这个阶段是计算效率和任务精度的关键。 一方面,通过高效地丢弃大部分的负面区域,可以将供给下一阶段的窗口数量减少三个数量级。 当需要对计算密集的卷积神经网络进行特征提取时,这是非常重要的。 另一方面,该算法不应该丢弃许多正面区域,因为这会严重影响整个系统的准确性。
我们测试了这个阶段的三种不同的策略:
- 滑动窗口是提出候选区域的最天真的算法。 根据这种方法,框架在水平和垂直方向都被一个以给定步幅移动的窗口扫描。 为了不变的行人的规模,不同规模的地区可以提取。 一方面,这样的算法可以保证100%的回忆,因为它不会排除任何正面的区域。 另一方面,它产生了大量的区域供给以下阶段,显着增加了计算负担。
- 选择性搜索,一种通用算法,提出可能包含对象的不依赖于类的区域。 这种算法已经在对象检测的背景下被成功利用[11]结合CNN进行特征提取和区域分类。 它作为一个粗糙的过滤器,显着地减少了要被特征提取器处理的区域的数量,从而减少了计算负担。
-
局部相关通道
全文共7317字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12963],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。