英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
我们为自动驾驶做好准备了吗?
KITTI Vision基准套件
安德烈亚斯·盖格和菲利普·伦兹 卡尔斯鲁厄理工学院 {盖格,伦茨}@kit.edu |
拉奎尔·乌塔松 芝加哥丰田技术学院 rurtasun@ttic.edu |
摘要
目前,视觉识别系统在机器人领域的应用还很少。可能这其中的一个主要原因是缺乏模拟此类场景的高要求基准。在本文中,我们利用我们的自主驾驶平台开发了新的具有挑战性的基准,用于立体、光流、视觉里程表/SLAM和三维物体检测等任务。我们的录音平台配备了四台高分辨率摄像机、一台Velodyne激光扫描仪和一套最先进的定位系统。我们的基准包括389个立体和光流图像对,39.2公里长的立体视觉里程序列,以及在杂乱场景中捕获的超过200k个三维物体注释(每张图像最多可看到15辆汽车和30名行人)。最新算法的结果显示,在Middlebury等已建立的数据集上排名靠前的方法在被转移到实验室之外的真实世界时表现低于平均水平。我们的目标是通过向计算机视觉社区提供具有新困难的具有挑战性的基准来减少这种偏见。我们的基准可在以下网站上获得:www.cvlibs.net/datasets/kitti网站
1. 介绍
开发能够帮助人类完成日常任务的自主系统是现代计算机科学面临的重大挑战之一。例如自动驾驶系统,它可以帮助减少交通事故造成的死亡。虽然在过去几年中,各种新型传感器被用于诸如物体识别、导航和操纵等任务,但视觉传感器在机器人应用中很少被开发:自动驾驶系统主要依赖于GPS、激光测距仪、雷达以及非常精确的环境地图。
在过去的几年中,越来越多的基准被开发出来,以推动视觉识别系统的性能,例如Caltech-101 [17] ,Middlebury用于立体声[41]和光流[2]评估。然而,这些数据集大多过于简单化,例如,是在受控环境中获取的。一个显著的例外是PASCAL VOC挑战[16]的检测和分割。
图1。带有传感器的记录平台(左上角)、来自视觉里程基准的轨迹(上中角)、视差和光流图(右上角)和三维物体标签(下角)。
在本文中,我们利用我们的自主驾驶平台,开发了新的具有挑战性的立体基准、光流基准、视觉里程计/SLAM基准和三维物体检测基准。我们的基准是通过在中等城市、农村地区和高速公路上行驶来获取的。我们的录音平台配备了两个高分辨率立体摄像系统(灰度和彩色),一个每秒产生超过一百万个3D点的Velodyne HDL-64E激光扫描仪,以及一个结合GPS、GLONASS、IMU和RTK校正信号的最新OXTS RT 3003定位系统。摄像机、激光扫描器和定位系统进行了校准和同步,为我们提供了准确的地面真相。表1总结了我们的基准,并提供了与现有数据集的比较。
经过半稠密(50%)地面真值校正后,我们的立体匹配和光流估计基准包括194个训练和195个测试图像对分辨率为1240times;376像素。与之前的数据集[41,2,30,29]相比,这是第一个具有真实的非合成图像和准确的地面真实性的数据集。还存在的难点包括非朗伯表面(如反射率、透明度)、大位移(如高速)、多种材料(如哑光与闪亮)以及不同的照明条件(如晴天与阴天)。
我们的3D视觉里程/SLAM数据集由22个立体序列组成,总长度为39.2km。到目前为止,属于这一类的数据集要么是单目的,要么是较短的[43],要么是由低质量的图像组成的[42、4、35]。它们通常不提供评估指标,因此,在评估视觉里程计/SLAM方法时,对于应使用哪个基准没有一致意见。因此,通常只给出定性结果,但基于激光的SLAM除外[28]。我们相信在我们的基准中是能够进行公平比较的,因为它的大规模性质以及我们提出的新指标,这些指标通过评估给定轨迹长度或行驶速度的所有子序列的误差统计来捕获不同的误差源。
我们的三维目标基准主要集中在用于目标检测和三维方向估计的计算机视觉算法上。虽然这些任务的现有基准不提供精确的3D信息〔17, 39, 15,16〕或缺乏现实主义〔33, 31, 34〕,但我们的数据集为对象类提供精确的3D包围盒,例如汽车、货车、卡车、行人、骑自行车者和有轨电车。我们通过手动标记由Velodyne系统生成的3D点云中的对象,并将其投影回图像中,来获取这些信息。这将产生具有精确三维姿态的轨迹,可用于评估三维方向估计和三维跟踪算法的性能。
在我们的实验中,我们使用我们的基准和新的度量来评估一组具有代表性的最先进的系统。也许并不奇怪,许多在Middlebury[41,2]等已建立的数据集上表现良好的算法在我们的基准上苦苦挣扎。我们推测这可能是因为他们的假设在我们的场景中被推倒了,并且对一小组训练(测试)图像过度拟合。
除了基准,我们还提供了Matlab/C 开发工具包,方便访问。我们还维护一个最新的在线评估服务器。我们希望我们的努力将有助于提高视觉识别系统在机器人应用中的影响力。[一]
2. 挑战和方法
为上述任务制定大规模和现实的评估基准提出了一些挑战,包括实时收集大量数据,校准以不同速率工作的各种传感器,生成地面真实情况,尽量减少所需的监督,为每个基准选择适当的序列和框架,并为每个任务开发度量。在本节中,我们将讨论如何应对这些挑战。
2.1. 传感器和数据采集
我们配备了一辆标准旅行车,配备了两台彩色和两台灰度点灰荧光2摄像机(10赫兹,分辨率:1392times;512像素,开口:90°times;35°)、一台Velodyne HDL-64E 3D激光扫描仪(10赫兹,64束激光,射程:100米),一个GPS/IMU定位单元,带有RTK校正信号(开放天空定位误差5cm)和一台运行实时数据库的强大计算机[22]。我们把所有的摄像头(即两个单元,每个单元由一个彩色和一个灰度摄像头组成)安装在我们的车上。我们把一个单元放在机架的左侧,另一个放在右侧。我们的相机设置如下:我们在同一类型的相机之间获得大约54厘米的基线,并且彩色相机和灰度相机之间的距离最小化(6厘米)。我们认为这是一个很好的设置,因为彩色图像在分割和目标检测等任务中非常有用,但与灰度图像相比,它提供的对比度和灵敏度较低,这在立体匹配和光流估计中至关重要。
我们使用的是Velodyne HDL-64E单元,因为它是为数不多的能够从移动平台提供精确三维信息的传感器之一。相比之下,像微软Kinect这样的结构光系统在室外场景下不工作,传感范围非常有限。为了补偿三维激光测量中的自我运动,我们利用GPS/IMU系统的位置信息。
2.2. 传感器校准
准确的传感器标定是获得可靠地面真实性的关键。我们的标定流程如下:首先,我们对四台摄像机进行内外部标定,并对输入图像进行校正。然后求出与激光扫描仪坐标系、定位单元和参考相机相关的三维刚体运动参数。虽然我们的相机对相机和GPS/IMUto-velodine配准方法是全自动的,但是velodine-to-Camera校准需要用户对少量激光图像和相机图像之间的对应关系进行手动选择。这是必要的,因为这项任务的现有技术不够精确,无法计算地面实况估计。 Camera-to-Camera校准。为了自动校准相机的内部和外部参数,我们在车库的墙上安装了棋盘格图案,并在校准图像中检测角落。基于梯度信息和离散能量最小化,我们给棋盘分配角点并通过最小化平均重投影误差来优化所有参数[19]。
表1.比较当前最先进的基准和数据集。 |
Velodyne-to-Camera校准。由于反射值中存在大量噪声,很难建立对应关系,因此将激光扫描仪注册到相机上是非常重要的。因此,我们依赖于一种半自动技术:首先,我们使用[19]的全自动方法注册两个传感器。接下来,我们将与基准测试中表现最好的方法相关的视差异常值的数量最小化,同时将激光点云和图像之间的一些手动选择的对应的重投影误差最小化。作为对应关系,我们选择了两个域(即图像和点云)中人类容易定位的边缘。通过使用Metropolis-Hastings抽取样本并选择能量最低的解进行优化。
GPS/IMU-to-Velodyne校准。我们的GPS/IMU到Velodyne的注册过程是全自动的。但是,我们不能依赖视觉对应,如果提供两个传感器的运动估计,则该问题将与众所周知的手眼校准问题相同,该问题已在机器人界得到广泛探讨[14]。利用ICP,我们精确地记录停车序列的激光点云,因为这提供了很好地处理最小化问题所需的大量方向和平移。接下来,我们从这个序列中随机抽取1000对姿势,并使用[14]获得所需的结果。
2.3. 基本事实
校准并注册所有传感器后,我们准备为图1所示的各个基准生成地面真实度。为了获得高的立体和光流地面真密度,我们使用ICP注册了一组连续帧(感兴趣帧之前5帧,之后5帧)。我们将累积的点云投影到图像上,并自动移除掉图像之外的点。然后,我们手动删除所有不明确的图像区域,如窗口和栅栏。给定摄像机标定,就可以容易地计算出相应的视差图。通过将三维点投影到下一帧中,得到光流场。对于这两个任务,我们评估两个非遮挡像素以及所有像素的地面真相是可用的。我们的非遮挡评估排除了掉在图像平面之外的所有表面点。由于激光扫描仪的特性,在同一幅图像中被物体遮挡的点不能以全自动的方式可靠估计。为了避免人为误差,我们不插值地面真值视差图和光流场,导致sim;50%的平均地面真值密度。视觉里程表/SLAM的基本原理由GPS/IMU定位单元pro的输出直接给出-校正后射入左摄像机坐标系。
图2。我们的数据集的对象发生率和对象几何统计。此图显示(从左到右和从上到下):序列中出现的不同类型的对象、图像中实例数的幂律分布以及两个最主要类别“汽车”和“行人”的方向直方图和对象大小分布。 |
为了生成三维物体的地面真实感,我们雇佣了一组注释器,并要求它们以三维包围盒的形式将轨迹分配给汽车、货车、卡车、电车、行人和自行车等物体。不像大多数现有的基准,我们不依赖于在线人群采购来执行标签。为了达到这个目标,我们创建了一个特殊用途的标记工具,它可以显示三维激光点和相机图像,以提高注释的质量。在[16]之后,我们要求注释者另外将每个边界框标记为可见、半遮挡、完全遮挡或截断。我们标记工作的统计数据如图2所示。
2.4. 基准选择
我们收集了总计3 TB的数据,从中我们选择了一个代表性的子集来评估每个任务。在我们的实验中,我们目前主要集中在灰度图像上,因为它们提供的质量比颜色对应的图像更高。
对于我们的立体和光流基准,我们选择环境是静态的序列子集。为了最大化多样性,我们使用新的表示在数据上执行k-均值(= 400)聚类,并且选择最接近于每个聚类中心的元素作为基准。我们使用144维图像描述符来描述每个图像,该描述符通过将图像细分为12times;4个矩形块并计算每个块的平均视差和光流位移来获得。在去除光照条件差的场景(如隧道)后,我们获得了194个训练和195个测试图像对。
对于我们的视觉里程表/SLAM评估,我们选择了具有高质量定位的变速长序列,产生了一组SLAM感兴趣的数据:以每秒10帧捕获的41000帧,总行驶距离为39.2公里的频繁关闭环路。
我们的三维目标检测和方向估计基准是根据场景中非遮挡目标的数量以及目标方向分布的熵来选择的。为了确保多样性,需要高熵。为此,我们使用了贪婪算法:我们将数据集X初始化为空集prod;,并使用以下规则迭代添加图像
其中大X是当前集合,是来自数据集的图像,小x表示图像中非遮挡对象的数量,并表示对象类的数量。是类相对于方向的熵(我们为行人/汽车使用8/16方向箱)。我们进一步确保来自一个序列的图像不会出现在训练和测试集中。
2.5. 评价指标
我们利用一组不同的指标来评估最先进的方法。在[41,2]之后,我们根据视差和终点误差,使用错误像素的平均数来评估立体和光流。与[41,2]相反,我们的图像没有下采样。因此,我们采用视差/终点误差阈值isin;{2,hellip;,5}px作为基准,默认设置为=3 px,其中考虑了几乎所有的校准和激光测量误差。我们报告错误的非遮挡像素以及所有像素的地面真相是可用的。tau;tau;
基于轨迹终点的误差评估视觉里程计/S
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236449],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。