自动驾驶计算机视觉研究综述:难题、数据集与前沿成果外文翻译资料

 2022-08-11 10:52:00

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


自动驾驶计算机视觉研究综述:难题、数据集与前沿成果

摘要:近年来已经见证了计算机视觉、机器学习和自动驾驶等人工智能相关领域惊人的进展。然而,和每一个飞速发展的领域一样,人工智能领域也出现了业内人员难以跟上行业节奏或业外人员难入行的问题。虽然已经有人发表了几篇关于这方面的专题调查论文,但是到目前为止,还没有关于自动驾驶计算机视觉难题、数据集和方法的综合性调查。本文通过提供有关自动驾驶计算机视觉这一主题的最新调查以填补这一空白。我们的调查既包括最为相关的历史资料,也包括识别、重建、运动估测、追踪、场景理解以及端到端学习等当前最先进的专业主题。为了完成这一目标,我们首先通过分类学对每个方法进行分类,接着在KITTI、ISPRS、MOT和Cityscapes等若干个挑战性的基准数据集上分析每个方法的最佳性能。此外,我们还讨论了一些开放问题和当前的研究挑战。考虑到访问的轻松性和缺失的引用,我们还提供了一个具有主题和方法导航功能的互动平台,提供额外信息和每篇论文的项目链接。

从20世纪80年代首次成功演示以来(Dickmanns amp; Mysliwetz (1992);Dickmanns amp; Graefe(1988);Thorpe等人(1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍然被认为需要数十年的发展。原因有两点:第一,在复杂的动态环境中,运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

在此论文中,我们聚焦于第二个问题,也就是自动驾驶视觉(Autonomous Vision),并调查了目前自动驾驶汽车中感知系统的表现。面向此目标,我们首先给出了问题分类,归类了已有的数据集,以及在这些类别中可使用的技术(论文成果),描述了每种方法的优缺点。第二,我们在数个流行公共可获得的数据集上分析了一些顶尖成果的表现,特别是我们给出了KITTI基准的全新深度质量分析,这些分析展示了那些用于提交到评估服务器上的方法所运行出来的最容易与最困难的例子。基于这些分析,我们讨论了开放的研究问题和挑战。为了更轻松的阅读,我们还给出了一个交互式在线工具。它使用图像可视化了我们的分类,并提供了额外的信息与项目主页链接。通过提供详尽的综述,希望我们的成果能够成为自动驾驶视觉领域研究人员进行研究的有用工具,也能降低新人进入该领域的门槛。

目前也有其他相关的研究。Winner等人(2015)详细解释了主动安全性与驾驶辅助系统并考虑了它们的结构与功能。他们的研究注重覆盖到辅助驾驶系统的所有方面,但关于机器视觉的章节只覆盖到了自动驾驶视觉问题中最基础的概念。Klette(2015)给出了基于视觉的驾驶辅助系统的概述。他们描述了高层次的感知问题的大部分方面,但并不像我们一样提供了在各种任务上顶尖成果的深度评测。Zhu等人(2017)提供了智能汽车环境感知的概述,聚焦于车道检测、交通/信号灯识别以及汽车追踪问题,该论文可与我们的研究互补。但相较之下,我们的目标是通过提供广泛的综述和对比(包括所有领域的成果),在机器人、智能汽车、摄影测绘学和计算机视觉社区之间架起一座桥梁。

1. 自动驾驶的历史

1.1 自动驾驶项目

世界各地的许多政府机构启动各式各样的项目来开发智能交通系统(ITS)。PROMETHEUS这个项目1986年在欧洲立项,参与者包括了超过13个交通工具生产商,当中的许多研究成员来自19个欧洲国家的政府和高校。美国的第一个项目是1988年由卡耐基梅隆大学的Navlab Thorpe等人创建的。这个项目完成了第一次从Pittsburgh,PA,Sand Diego和CA的自动驾驶,是1995年一个重要的里程碑。在许多大学,研究中心和自动驾驶公司的倡议下,美国政府在1995年成立了自动化公路系统联盟(NAHSC)。和美国一样,日本于1996年在各大自动驾驶公司和研究中心成立了高级巡航公路系统研究协会来促进自动驾驶导航的研究。Bertozzi等人(2000)调查了这些项目中许多应对发展着的自动驾驶道路困难任务的方法。他们得出结论,算法计算能力越来越好,但像反射、湿面潮湿、阳光直射、隧道和阴影这样的困难仍然使数据解释具有挑战性。因此,他们建议增加传感器性能,也指出,应该认真的考虑在法律方面上自动驾驶对行人的责任和影响。总之,自动化可能会首先限制仅仅用在特殊的基础设施上,然后慢慢的普及开来。

PROMETHEUS项目实现了在高速公路上自动驾驶,在这个成功的案例推动下,Franke等人描述了在复杂的城市交通场景下的自动驾驶的实时视觉系统。虽然在此之前公路场景情况已经有了很多深入的研究,但城市场景却从未得到解决。他们的系统包括基于深度的障碍检测和立体追踪,以及针对相关物体(比如:交通信号)的单目检测和识别框架。

Vis-Lab3提出的多种传感系统的融合把包括ARGO Broggi等(1999),TerraMax Braid等(2006)和BRAiVE Grisleri和Fedriga(2010)的几款原型车带到了人的视野中。BRAiVE是目前VisLab开发的整合所有系统的最新车型。Bertozzi等人(2011)在VisLab洲际自治挑战赛(意大利到中国的半自主驾驶)展示了其系统的稳健性。车载系统允许检测障碍物,车道标记,沟渠,护堤,并识别前方是否存在车辆和车辆位置。感应系统提供的信息用于执行不同的任务,如Leading-following和Stopamp;Go。

PROUD项目Broggi等人(2015年)略微修改了BRAiVE原型Grisleri和Fedriga(2010),使得汽车可以在帕尔马城市道路和高速公路的常规交通情况下开车。为了实现这一目标,他们丰富了一份公开授权的地图,其中包含有待完成的机动信息(比如行人过路,交通信号灯等)。该车辆能够在没有人为干涉的情况下处理复杂的场景,例如回旋处,交叉口,优先道路,站点,隧道,人行横道,交通信号灯,高速公路和城市道路。

V-Charge项目Furgale等人(2013年)提供了配备了近距离市场传感器的电动自动车,并提出了一个包括视觉定位,映射,导航和控制全面可使用的系统。该项目解决了诸多困难,比如:Heng等人(2013,2015)的校准calibration问题,Hauml;ne等人(2014)的立体stereo问题,Haene等人的(2012,2013,2014)重建问题,Grimmett等人(2015)的SLAM问题和Hauml;ne等人的(2015)空白区于检测的问题。除了这些研究目标,该项目还非常重视在现实环境中部署和评估系统。

Google于2009年开始了自驾车项目,直到2016年3月4日在美国加利福尼亚州奥斯汀市的Mountain View,WA和柯克兰完成了超过1498000英里的驾驶距离。不同的传感器(例如摄像机,雷达,LiDAR,车轮编码器,GPS)可以全方位的检测行人,骑自行车的人,车辆,道路工作等等。据他们的事故报道,Google的自驾车只涉及14次碰撞,13次是由别人造成的。在2016年,这个项目被引入到了一家独立的自动驾驶技术公司Waymo5。

Tesla Autopilot是由特斯拉开发的高级驾驶辅助系统,该系统于2015年第一次推出其第7版的软件。系统的自动化级别允许完全自动化,但是如果有必要的话需要驾驶员全神贯注控制。从2016年10月起,特斯拉生产的所有车辆都配备了8台摄像机,12台超声波传感器和一个前置雷达,以实现全自动驾驶。

长距离测试演示:1995年,PROMETHEUS项目里Dickmanns等人(1990);弗兰卡等人(1994);Dickmanns等人(1994年)的团队演示了从德国慕尼黑到丹麦欧登塞以高达175公里/小时的速度进行的第一次自动长途驾驶,其中约95%为自主驾驶。同样在美国,Pomerleau和Jochem(1996年)在无手通过美国项目中从华盛顿特区驾驶到圣地亚哥,整个行程中有98%的自动驾驶和偶尔的手动纵向控制。

2014年,Zieglar等人(2014年)以近乎完全自动的方式,展示了从曼海姆(Mannheim)到德国普福尔茨海姆(Pforzheim Germany)的103km的驾驶,也就是众人所熟知的Bertha Benz纪念路线。他们展示了一种装配有Close-to-production传感器硬件的自动驾驶车辆。由雷达和立体视觉来进行物体检测和空白区域分析。单目视觉用来检测交通信号灯和物体分类。两种互补的算法,基于点特征和基于场景标记,允许相对于手动注释的数字路线图进行精确定位。他们得出结论,甚至认为自动驾驶虽然成功完成了,但是整体行为远远达不到细心的驾驶司机的水平。

最近,Bojarski等人(2016年)从霍尔姆德尔(Holmdel)到新泽西州蒙茅斯县的大西洋高原,以及在花园州立大道上没有任何干扰的情况下自动行驶了10英里,其中98%是在自动驾驶。为了实现这一目标,在NVIDIA DRIVETM PX自动驾驶车中使用了一种从图像直接预测车辆控制的卷积神经网络。该系统在第11节中有更详细的讨论。

虽然上述所有的表现令人印象深刻,但精确注释路线图的一边假设以及预录用于本定位的地图证明了自主性系统仍然不及人的能力。最重要的是,不仅需要视觉信息的强大的感知,也需要一般的人工智能才能达到人的可靠性水平,那样才能在复杂的城市情况下安全地做出反应。

1.2 自动驾驶竞赛

European Land Robot Trial(ELROB)是现实场景和地形中的无人系统的示范与竞赛,主要集中在军事方面,如侦察监视、自主航行和车队运输。与自主驾驶挑战相反,ELROB场景通常包括崎岖地形的导航。

2004年,美国国防高级研究计划署(DARPA)发起了第一个专注于道路场景(主要是泥土路)的自动驾驶比赛。DARPA 2004年大挑战赛将提供了100万美元的奖金给首先完成从加利福尼亚州内华达州过境的150英里的路线的队伍,然而,机器人车辆都没有完成路线。一年后,也就是2005年,DARPA公布了第二版的挑战,5辆车顺利完成了路线(Buehler等人(2007))。DARPA大挑战赛的第三场比赛,被称为城市挑战赛(Buehler等人(2009)),于2007年11月3日在乔治航空加利福尼亚州的基地举行。这个挑战涉及到一个96公里的城市地区航线,规定在这段路程中车辆在与其他车辆进行交互并汇合到一起时,必须遵守交通法规。

2011年首次和2016年第二版的专注于自动合作驾驶行为的大型合作驾驶挑战(GCDC8,见Geiger等(2012a))在荷兰赫尔蒙德举行。在比赛中,队伍不得不协商道路,加入车队和引导车队。获胜者是基于选择的分配给随机混合团队的系统选出来的。

2 数据集和基准

数据集在许多研究领域进展方面发挥了关键作用,它提供了通过提供数据集通过提供专门的真值(Ground Truth)问题实例,并允许通过提供有关其能力与局限的核心信息对方法进行量化评估。特别地,这些数据集中的几个比如Geiger等人(2012b);Scharstein和Szeliski(2002);Baker等人(2011);Everingham等人(2010);Cordts等人(2016)也提供在线评估服务器,以便允许在延期测试中进行公平的比较,并为该领域的研究人员提供不断更新的目前最好的算法。这种方式可以让研究人员很容易地确定目前的进展和剩下的挑战。在自主车辆的环境中,KITTI数据集Geiger等人(2012b)和Cityscapes数据集Cordts等人(2016)为重建、运动估计和识别任务引入了挑战性的基准,因此缩小了实验室设置与挑战现实世界的情况之间的差距。仅仅几年前,大家认为有数百个注释的例子的数据集对于解决很多问题是足够的。然而,有数百到数千个有标签的例子的数据集的引入,通过以监督的方式训练大容量深度模型,已经使得许多计算机视觉学科的重大突破。但是,收集大量的注释数据不是一个容易的事情,特别是对于诸如光流或者语义分割的任务。这就需要集体努力通过搜索尽可能多的方式来自动化过程,例如通过半监督学习或合成,从而在多个领域产生了这种数据。

2.1 真实数据集

虽然某些算法领域可以使用合成数据检验,但实际数据集对于确保算法在实际情况下的表现是必要的。例如,在实践中使用的算法需要处理复杂的对象和环境,同时要面对挑战性的环境条件,例如直接照明,镜面反射,雾或雨。真实值的获取通常是劳动密集型的,因为这种信息通常不能用传感器直接获得,而是需要繁琐的手动注释。例如,(Scharsteinamp;Szeliski(2002),Baker等人(2011))在受控实验室环境中获得了密集的像素级注释,而Geiger等人(2012B);Kondermann等人(2016)使用LiDAR激光扫描仪提供实际街景场景的稀疏像素级注解。

最近,亚马逊的Mechanical Turk众包业务常用于为大型数据集创建注释,例如Deng等人(2009);Lin等人(2014);Leal-Taixeacute;等人(2015);Milan等人(2016)。然而,通过Mechanical Turk获得的注释质量通常不太合适作为参考,通常需要在后处理和清理已获得的标签方面作出重大努力。在下文中,我们将首先讨论最流行的计算机视觉数据集和基准,以解决与自主视觉相关的任务。此后,我们将专注于那些致力于自动驾驶车辆的应用的数据集。

立体3D重建类数据集:由Scharstein和Szeliski(2002)引入的Middlebury立体测试基准提供了多个立体图像数据集,用于比较立体匹配算法的性能。通过手工

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237528],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。