英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
基于2D-3D的车载行人检测系统
摘 要
在未来十年,车载行人检测系统将在增加交通安全的挑战中发挥关键作用。 这些系统的主要目标是在城市场景中检测行人,这意味着克服困难,如处理来自移动平台的户外场景以及在杂乱的环境中搜索变化方面的物体。 这使得这些系统结合了最先进的计算机视觉技术。在本文中,我们提出了一个基于2D和3D线索的三模块系统。 第一个模块使用3D信息估算道路平面参数,从而选择一组连贯的感兴趣区域(ROI)进行进一步分析。 第二个模块使用Real AdaBoost和Haar小波和边缘方向直方图的组合来将传入的ROI分类为行人或非行人。 nal模块再次以3D提示循环,以验证分类的ROI和2D以便反映最终结果。 根据结果,所提出的技术的整合产生了有前景的系统。
1 介绍
如今,交通事故是全球死亡的主要原因之一。 据世界卫生组织统计,每天有3000人因交通事故死亡[1]。 具体而言,欧洲经济委员会在欧洲经济委员会报告的车辆 - 行人事故案件中,2003年仅在欧盟报告了近15万人受伤和7000名行人死亡,这是车祸发生后的第二个死亡原因[2]。 然而,与交通事故作为公路交通的随机和不可预测后果的社会接受观点相反,这些死亡事故可以通过预防和明智措施来解决。 因此,近几十年来,这一问题越来越受到政府和业界的重视,这些政府和行业在交通安全研究方面投入了大量精力。
在过去的十年里,除了道路基础设施的改进(例如,能见度增强,环形交叉口,速度控制,更好的路标等)之外,一个新的研究领域得到了特别关注:高级驾驶辅助系统(ADAS) 。 ADAS是智能车载系统,旨在预测和预防事故,或者至少在不可避免的情况下将其影响降至最低。 ADAS的例子是自适应巡航控制,它调整自己的车速以保持与前车的安全间隙,或车道偏离警告,当车辆离开时警告驾驶员车道无意中。 其中最复杂的ADAS应用是行人保护系统(PPS),这是本文的重点。 在这种情况下,目标是检测和定位车辆前方的静态区域中的静态或移动人员,以便向驾驶员提供信息并执行回避或制动动作。图1 说明了PPS需要解决的典型风险领域。 在正常情况下,车辆在30 km / h时的停车距离约为5 m,在50 km / h时增加到12 m,因此系统必须智能地将他们的技术集中在检测这些区域的行人的危险上。
图1.驾驶时的不同风险区域。 红色的高风险区域对应于与行人相撞的巨大危险,其总是取决于车辆的速度。 处于中等风险区域的行人以黄色显示可能穿越前方道路,因此通常不会有即将到来的情况,但系统必须了解这些情况。 低风险地区,绿色,包含行人没有即将发生碰撞的危险,但必须提前发现,因为他们站在车辆的路径。
通过使用像照相机这样的无源传感器,计算机视觉在大多数这些系统中起着关键作用。 例如,相机被用在PPS中,以利用其丰富的提示和高分辨率来检测感兴趣的交通对象(即,行人)。 由于需要对来自移动平台的室外场景(不受控制的照明)进行实时解释(快速背景变化以及存在未知移动物体),ADAS所涉及的主题处于最先进的领域。 此外,在PPS环境下,由于其外观(即不同的关节姿势,衣服,距离和视角)的高度可变性以及城市环境中常见的混乱情景,行人检测更具挑战性。 值得一提的是,ADAS的移动性使得其他人类检测领域的一些成熟技术,如背景减法监测方法,在我们的案例中不适用。
在本文中,我们介绍一种利用计算机视觉线索的行人检测系统,特别利用3D信息来丰富典型的基于2D的分类。 该系统分为三个步骤。 首先,3D数据根据立体声装置计算出的道路姿态用于估计道路姿态,这是用于调整3D中步行者大小窗口所需的道路姿态。 这些窗口,感兴趣的区域(从现在起的投资回报率),然后被投影到二维图像平面上,我们提出的分类器将它们标记为行人或非行人:具有哈尔小波(HW)和边缘方向直方图的Real AdaBoost学习算法(EOH)功能。 系统的最终阶段通过检查其3D位置和大小验证每个正向标记的ROI。 最后一个renement阶段用于对2D中的重叠冗余检测进行分组。
本文的其余部分如下。 在总结了相关的研究部分2,所提议的系统的介绍在第一节中描述3,将其设计为一个通用的PPS架构[3]。 然后,利用上述技术的当前系统的模块被放置在该架构上下文中。 第一个模块,在Section中描述4,利用了基于3D的自适应图像采样技术。 部分5 介绍了2D分类模块。 部分6 提供最后一个模块,包括3D验证和最终2D检测分组。 最后,部分7 给出了三个模块和整个系统各自的实验结果。 结论总结在部分8。
2 相关研究
通过查看文献[3] 可以看出,大多数系统基于特征选择和机器学习来执行2D行人分类。 一些例子是Broggi等人的基于对称和二进制模板的方法。[4],Grubb等人的梯度图像支持向量机方法。[5],Gavrila等人的分层模板匹配(倒角系统)和神经网络。[6] 或者Shashua等人的基于部件的SVM和AdaBoost方法。[7]。 事实上,PPS可以利用近年来提出的越来越多的普通人检测方法。 例如,达拉尔和Triggs[8] 提出了定向梯度(HOG)特征和SVM的直方图。 在[9],Leibe等人 分两步执行检测。 首先,根据高斯关键点的不同提取图像块[10]。 然后,将这些补丁与行人模型进行匹配,该模型提供其空间分布,稍后用于将投票投影到假设地图上。 最后,这些假设使用启发式模板匹配来验证和修改[6]。 Tuzel等人[11] 根据子窗口中不同量度(位置,一阶和二阶导数,梯度模块,梯度方向)的协方差作为特征并使用黎曼流形进行提升。 Wu等人[12] 提出一个由四个主体部分组成的基于零件的方案,三个视图类别来训练类似助推器的分类器。 他们使用短边部分作为功能。 Felzenszwalb et al。[13] 同样使用HOG和SVM也是基于零件的方法。 在这种情况下,使用六个不同的动态部分(不限于假设中的固定位置)。
鉴于这些方法基于处理2D图像,应用这些方法的一种简单方法是对输入图像中所有可能位置和大小的窗口进行分类,这通常被称为穷举窗口扫描(详尽的窗口扫描图3一个)。 但是,尽管广泛用于一般人体检测方法[14,8],这个过程不仅在计算时间方面太昂贵(数百万个窗口应该被分类),而且通过提供不相关的ROI(例如天空区域)可能增加误报的数量。 结果,通常认为场景的先验知识减少了这个大量的窗口。 例如,由于系统寻找行人,因此只有路面上的窗户才能被分类。 因此,ADAS文献中经常使用的直观技术是x对应于水平线的图像行,然后假定该行下的所有像素都属于路面。 结果,可以根据一些平均步行者尺寸约束和图像形成的几何结构来生成铺设在每个像素上的窗口。 这种方法,由Gavrila等人使用。[6],有一个隐含的假设:摄像机和道路之间的相对位置和方向不会改变,即水平线行定义为第一帧,并在整个视频序列中保持不变。 他们在世界的假设下提到这个约束。 然而,由于车辆移动,道路坡度甚至路面不平整等原因,许多情况下这种假设并不完备,特别是在城市情景中。 因此,为了补偿相机变化,应该考虑每个像素的许多可能的不同窗口,这将在非常高的处理时间和潜在的误报中再次翻译。
已经提出了一些避免世界假设的策略。 例如,Soga等人[15] 提出一种基于密集立体的候选窗口选择步骤,避免对整个图像进行穷举搜索。 候选窗口在含有高度在70厘米至250厘米之间的固体物体(即垂直表面)的那些区域中定义。 Broggi等人[16] 提出
首先使用一种v-视差图像来识别垂直对象
- 从立体头获得。 然后,进一步的分类阶段只集中在那些垂直对象上。
一些系统提出了进一步强化检测的步骤。 加夫里拉等人。[6] 利用校准立体声装置的视差一致性测试来验证基于轮廓的假设。 Ess等人
提出一种多帧方案,通过使用图形模型来联合估计场景几何图形和假设假设。 在代替使用密集的深度图,Leibe et al。[19] 提出基于运动(SFM)的实时结构几何估计,用于在每一帧持续估计摄像机姿态和场景的地平面。 在这种情况下,这种在线校准不用于减少搜索空间,而是用于在3D位置之前优先考虑每个假设(检测到的行人)。 基于SFM的场景几何估计方法面临的主要挑战在于强大的特征点提取和匹配,特别是当场景包含大量移动物体时。
3 2D-3D系统
文献概述将我们引向两个重要的观点,这些观点被视为当前提案的关键点。 首先,仅仅使用2D线索就很难想象完美的分类,因此我们打赌将它与3D信息相结合。 其次,在处理PPS的开发时,可以从这些建议中推断出一种通用的方法。 事实上,在最近的一项调查中,Geroacute;nimo等人[3] 提出ADAS行人检测的一般架构。 它由六个模块组成,其中可以划分一个完整的系统。 下面介绍所有模块的名称和目标:
预处理:这是图像的第一次计算,旨在为进一步处理做准备。 预处理的一个例子是执行畸变矫正或对比度调整。
前景分段:它提取要发送到分类模块的ROI。 关键是要避免尽可能多的背景投资回报率,但不要丢弃那些包含行人的投资回报率4).
对象分类:它将选定的ROI标记为行人或非行人(Section5).
验证和实施:它为分级为行人的ROI提供额外的检查。 它侧重于通过使用不与对象分类重叠的标准来滤除误报(Section6).
跟踪:它跟踪时间的行人都会消除虚假检测并预测他们未来的位置和方向。 应用程序:它包含所有通过使用先前模块的信息所获得的高级警告和操作。 一些例子是声音警告,安全气囊的自动展开或自动制动。
在当前的建议中,我们将重点放在三个模块上,我们将其理解为PPS的核心模块:前景分割,对象分类和验证/修正。 接下来的部分将在这三个模块的框架内描述所提出的解决方案,图2介绍。
图2系统架构的三个核心模块
在目前的工作中,立体视觉信息的丰富性首先根据以下方案在前景分割模块中被利用。 最初,它被用来自动计算当前的水平线,而不用假定一组预定的约束,例如基于单眼的系统所使用的约束。 基本的方法是对3D道路数据进行表面处理。 因此,由于3D数据被称为相机坐标系,所以容易获得与相对表面相关的相机位置和方位。 Nedevschi等人[20] 建议使用3D点的侧向投影来绘制路面的回旋模型。 Danescu等人提出了类似的方法。[21] 在护栏和围栏检测方面。 这两种方法都是为了提取道路上方的3D点,这些点随后聚集到对象中。 在这两种情况下,所有处理都仅使用立体视觉信息来执行。 这些方法的主要缺点在于使用主要来自道路车道标记的边缘点; 因此在城市场景中经常发生的车道并未完好定位的区域,这些场景对行人检测应用而言是自然的。 Sappa等人提出了一种不同的方法。[22]。 虽然它使用了简单的路面平面模型,但它已被证明有助于应对上坡/下坡驾驶以及车辆的动态俯仰。 在当前的论文中,提出了一种基于立体视觉系统提供的3D数据的新方法。 它将飞机连接到3D数据点,并在估计的路面上放置均匀分布的行人大小的窗户。 使用这种自适应图像采样,分类的二维ROI的数量减少了三个数量级,即从数百万减少到数千(图3B)。 请注意,道路估算技术也可以使其他ADAS功能(如车辆检测和道路分割)受益。
图3
一旦选择了减少的ROI集合,分类者的目的是将选定的ROI标记为行人或非行人。 在本文中,我们建议使用Haar小波(HW)和边缘方向直方图(EOH)作为特征的组合,并使用Real AdaBoost作为学习机提供线性分类器。 这些简单和快速计算的功能,以及快速和考虑到问题的计算时间限制,有效的分类器代表了一个非常方便的选项。 我们表明,这个classier可以改善由Dalal等人提出的人类分类方法的结果。[8],直到我们的知识代表了人类分类中的最新技术。
最后,在基于2D的分类阶段之后,再次使用立体声信息,但这次用于在可能的情况下验证由分类器获得的结果。 在这种情况下,旨在尽可能多地丢弃误报,检查每个正ROI中的检测对象的3D值与预期值与ROI位置和大小相匹配。 最后的退役阶段通过使用在中提出的均值偏移模式选择方法来对重叠的冗余2D检测进行分组[23] 以便为场景中的每个行人提供一次检测。
这种新颖且更加详尽的2D / 3D信息结合策略,在每个阶段都意识到2D / 3D数据局限性的情况下,采用了强大的方法。 因此,3D最初用于场景几何估计,以避免与立体声数据不佳有关的常见问题。 然后,通过对减少的ROI集合进行有效的2D分类来检测行人。 最后,3D信息用于验证获得的结果,同时用于聚类冗余2D检测。 这个阶段的目的是为跟踪模块提供更灵敏的检测,而不包括在当前的系统中,这将利用时间相干性将跟踪的检测提供给应用级别。
4自适应图像采样
在这个阶段的主要目标是通过对路面进行均匀采样来定义一组ROI,从而导致图像平面的自适应采样(图4C)。 它通过使用基于RANSAC的最小二乘法将一架飞机安装在路面上来工作。
为了获取主车辆前方区域的3D信息(图4b),商业立体视觉系统(Point Grey的Bumblebee(http://www.ptgrey.com) 已经用过 (图4一个)。 立体声头的基线为12厘米,并通过IEEE-1394接口连接到计算机。 右和左col-or11 图像以640 fps的分辨率以5 fps捕获。 摄像机控制参数被设置为自动模式以补偿光强度的全局变化。 在捕获这些右侧和左侧图像之后,使用提供的3D重建软件来计算3D数据。
x
图4(a)相机设置的视图,(b)利用前向立体声装置获得的3d数据点的快照,(c)期
全文共6172字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[9925],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。