英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

面向自动驾驶场景的多视图三维目标检测网络

Xiaozhi Chen¹, Huimin Ma¹, Ji Wan², Bo Li², Tian Xia²

¹ Department of Electronic Engineering, Tsinghua University

² Baidu Inc.

{chenxz12@mails., mhmpub@}tsinghua.edu.cn, {wanji, libo24, xiatian}@baidu.com

摘要

这篇文章旨在介绍一种面向自动驾驶场景的高精度3D目标检测方法。我们提出了多视图3D网络(MV3D)，一种以激光雷达点云和RGB图像作为输入，然后预测物体有向3D边界框的传感融合框架。我们将稀疏的3D点云编码为稠密的多视图。该网络由两个子网络组成：一个子网用于生成候选3D边界框，另一个子网用于多视角信息的融合。推荐网络有效的从点云的鸟瞰图上生成3D候选边界框。我们设计了一种深度融合的方案，以结合多个视图中的区域特征，并实现不同路径中间层之间的融合。在KITTI的基准测试中的，实验表明我们方法在3D定位任务中的准确率比当前最新的方法高大概25%，在3D检测任务中高大概30%。另外，在基于激光雷达的2D目标检测任务中我们方法的准确率也比当前最新的办法高出10.3%.

1.介绍

3D目标检测在自动驾驶汽车的视觉感知系统中占有重要地位。现代自动驾驶汽车通常装有多种传感器，比如激光雷达和摄像头。激光扫描器具有能够获得准确深度信息的优点，而摄像头则保留有更加详细的语义信息。激光雷达点云和RGB图像的融合能够帮助实现更高性能和安全性的自动驾驶汽车。

本文的重点是同时利用激光雷达和图像数据进行3D目标检测。我们希望在道路场景下获得高精度的3D定位和物体识别。最新基于激光雷达的方法将3D窗口放置在3D体素网格中来对点云进行打分[26,7]或者将卷积网络应用到稠密的点云前视图上获得边界框预测[17]。基于图像的方法通常先生成3D提议边框然后使用Fast R-CNN[10]进行区域的识别。基于点云的方法通常能够获得的更加准确的3D位置，而基于图像的方法则在2D边界框的评估中有更高的准确率。[11,8]通过激光雷达和图像的早期融合和晚期融合进行2D检测。但是对于更加具有挑战性的3D目标检测任务，一个设计良好的模型需要能够充分的利用各个模态的优势。

在本文中，我们提出了一种多视图3D目标检测网络（MV3D），该网络以多种模态数据作为输入然后在3D空间中预测目标完整地三个维度的位置。该网络的主要思想是利用多模态信息进行区域特征的融合。我们首先提出一种多视图的编码方法，以获得稀疏点云紧凑有效的表示。如图1所示，该多视图3D目标检测网络由两部分组成：分别是3D提议网络和区域融合网络。该3D提议网络利用点云的鸟瞰图去生成高精度的3D候选边界框。这种3D目标提议的好处是能够投影到3D空间的任何视图中。多视图融合网络通过将3D提议边界框投影到多个视角的特征图中来提取区域特征。我们设计了一种深度融合的办法，以实现来自不同视图的中间层的融合。结合下降路径训练[15]和辅助损失，我们的方法表现出优于早期和晚期融合方法的性能。提供多视图地特征表示，网络将定向回归3D边界框以在3D空间中准确预测目标的3D位置，尺寸和方向。

我们在具有挑战性地KITTI目标检测测试基准[9]中地3D边界框提议生成，3D检测和2D检测任务中对我们的方案进行了评估。实验表明我们在3D边界框提议生成中明显优于最近的3D提议方法如3DOP[4]和Mono3D[3]。特别是只使用300个提议地情况下，我们就在IOU阈值为0.25和0.5时分别获得了99.1%和91%的召回率。我们方案基于激光雷达的变体在3D定位任务中提升了约25%的精度，在3D目标检测任务中提高了约30%的精度。在KITTI的困难难度目标检测中我们的方案仍然超过了其他方法10.3%的精度。当与图像结合时，将相对于基于激光雷达的结果获得进一步的改进。

图1：多视图三维目标检测网络（MV3D）：该网络以激光雷达点云的鸟瞰图和正视图以及图像作为输入。它首先从鸟瞰图生成3D边框提议，并将它们投影到三个视图中。深度融合网络用于合并通过ROI池化获得的每个视图的区域特征。将融合后的特征用于目标的联合分类和有向的3D边界框回归。

2.相关工作

我们简要回顾了一些基于点云和图像进行3D目标检测，多模态融合和3D目标提议的现有工作。

点云中的3D目标检测。当前大多数方法将3D点云编码为体素网格的表现形式。Sliding Shapes[22]和Vote3D[26]将SVM分类器应用到编码为3D网格中地几何特征。一些最近的提议方法[23,7,16]通过3D卷积来提升特征表达。另外对于3D体素表达，VeloFCN[17]将点云投影到前视图来获得2D图像。他们将全卷机网络应用到2D图像中来通过卷积特征图预测3D边界[24,18,12]研究了点云立体和多视图表示用于3D物体的分类。在该工作中，我们将3D点云编码为多视角特征图，实现了多模态融合的区域表示。

图像中的3D目标检测。3DVP[28]引入了3D体素模式并将一组ACF检测器应用于2D检测和3D位置估计。3DOP[4]从立体图像中重建深度，利用能量最小的方法生成3D边界框提议，然后送入到R-CNN中进行目标检测。虽然Mono3D[3]和3DOP基础框架相同，但是它是从单目图像中生成3D边界框提议。为了融合时间信息，一些工作[6，21]将运动和地面估计结合起来，将2D边界框提升为3D边界框。基于图像的方法通常依赖于精确的深度估计和标志点检测。我们的工作展示了如何结合点云信息去提升3D定位效果。

多模态融合。在自动驾驶环境下只有少数方法使用了多模态数据融合.[11]利用一个专家混合框架结合了图像，深度和光流进行2D行人检测。[8]在早期融合了RGB和深度图像然后训练了基于姿势的分类器用于2D检测。在本文中，我们受FractaNet[15]和Deep-Fused Net[27]的启发设计了一种深度融合的方案。在FractaNet中，迭代重复构造一个基础模块构成的网络路径数量成指数级的提升。同样的，[27]通过浅层子网络和深层子网络构造了深度融合网络。我们的网络与它们的区别在于每列使用相同的基础网络，并通过添加辅助路径和损失以进行正则化。

3D目标提议。与2D目标提议[25,33,2]类似，3D目标提议会生成一小组3D候选边界框以覆盖3D空间中的绝大多数目标。为此，3DOP[4]设计了一些特征路径来为立体点云中的大量3D候选边界框打分。Mono3D[3]先利用地面先验知识进行分割从单幅图像中生成一些3D提议边界框。3DOP和Mono3D都使用了手工设计的特征。Deep Sliding Shapes[23]使用了更加强大的深度学习特征。但是，它需要运行在3D体素网格上并且使用计算力昂贵的3D卷积。我们提出了一种更加有效的办法，通过将2D卷积应用在点云的鸟瞰图表示上生成准确的3D边界框提议。

3.MV3D网络

该MV3D网络将点云的多视图与图像作为输入。它首先从鸟瞰图上生成3D提议边框然后深度融合多视图的区域特征。融合的特征用于边框的分类和有向3D边框坐标的回归。

图2，MV3D网络的输入特征

3.1 3D点云表示

现有地方法通常将3D激光雷达点云编码为3D网格[26,7]或前视图[17]。尽管3D网格表示保留了点云的大部分原始信息，但在随后的特征提取中往往需要更加复杂的计算。我们提出了将3D点云投影到鸟瞰图和前视图上以获得一种更加紧凑表示方法。图2展示了该种点云表示方法。

鸟瞰图表示。鸟瞰图由高度，强度和密度编码而成。我们将投影的点云离散成分辨率为0.1m的2D网格。每个单元中高度特征是由单元格中最高的点计算而来地。为了编码更加详细的高度信息，点云被等分为M片。每片分别计算一个高度特征图，因此我们获得了M个高度图。强度特征是每个单元中具有最大高度的点的反射强度值。点云的密度特征则表明了每个单元格中点云的个数。为了对特征进行归一化，密度特征被计算为),N是单元格内点云的个数。需要注意的是强度和密度特征是针对整个点云计算的，而高度是针对M个切片分别计算的，因此鸟瞰图被编码为(M 2)个通道特征。

前视图表示。前视图表示为鸟瞰图表示提供了补充信息。由于点云数据十分稀疏，因此将其投影到图像平面会形成稀疏的2D点图。作为代替，我们将它投影到圆柱表面以形成密集的前视视图[17].给定3D点，其在前视图中的坐标可以通过公式(1)计算

其中和是激光雷达的水平和纵向分辨率.我们通过高度，距离和密度三个通道的特征进行编码获得前视图，如图2所示。

3.2 3D提议网络

受已经成为最先进的2D目标检测网络[19]的关键部件区域推荐网络(RPN)的启发，我们首先设计了一个3D目标提议网络。我们将鸟瞰图作为输入。在3D目标检测中，鸟瞰图相对于前视和图像平面有多种好处。首先，物体在投影到鸟瞰图时会保持物理尺寸，因此尺寸变化很小，但在前视图和图像平面上并非如此。其次，鸟瞰图中的物体占据了不同空间，从而避免了遮挡问题。第三，在道路场景下，由于对象通常位于地平面上且垂直位置的变化很小，因此鸟瞰图位置对于获取准确的3D边界框至关重要。因此，使用特殊的鸟瞰图作为输入会使3D位置预测更加可行。

提供一个鸟瞰图。该网络会从一组3D先验边框中生成3D提议边框。每个边界框均由参数化，这些参数是激光雷达坐标系中3D边界框的中心和大小(以m为单位)。对于每个3D先验框，可以通过离散化来获得相应的鸟瞰图锚。我们通过在训练集中聚类真实物体的大小来设计了N个3D先验框。在汽车检测中，先验框中取，然后被设置为1.56m。通过将鸟瞰图锚点旋转90度，我们可以获得N=4个先验框。是在鸟瞰特征图中变化的位置，并且可以通过相机和物体高度计算。我们不在提议框生成阶段进行边框方向的回归，而是将它留给接下来的预测阶段。3D边框的方向被限制为，这与大多数道路场景下的实际方向很接近。这种简化的提议方案使提议边框的回归训练变得更加容易。

图3：不同融合方案的架构：我们用级联操作实例化早期/晚期融合中的连接节点，用元素平均操作实例化深度融合。

离散化的分辨率为0.1m，鸟瞰图中的目标边框仅占5-40个像素。检测这么小的目标对于深度网络来说仍然是一件困难的事情。一种可行的解决方法是输入使用更高的分辨率，但是这样也会需要更高的计算力。我们选择类似[1]一样在特征图上使用上采样。在提议网络的最后一个卷积层后面我们使用了2倍的双线性上采样。在我们的实现中，前端卷积仅使用了3次池化操作，也就是8倍下采样。因此，结合2倍的逆卷积，送入到提议网络的特征图相对于鸟瞰图降低了4倍的采样率。

我们类似于RPN[19]通过对进行回归获得3D边界框的回归。是通过对锚尺寸标准化的中心偏移量，通过计算得到。我们使用多任务损失去同时分类物体和背景以及对3D边框进行回归。特别的，我们将分类损失函数用于目标损失，Smooth L1[10]用于3D边框回归损失。背景边框在计算边框损失时忽略。在训练期间，我们计算预测边框与地面鸟瞰图真实边框之间的重叠度。如果边框的重叠度大于0.7则认为该边框为正，如果边框的重叠度小于0.5则认为该锚点为负。重叠度在这之间的边框被忽略。

由于激光雷达点云是稀疏的，也就导致出现了很多空边框，我们在训练和测试期间去掉了所有空边框以减少运算量。这可以通过在点云占用图上计算图像积分获得。

对于最后一个卷积特征图上每个位置上的非空边框，网络均生成了一个3D边框。为减少冗余，我们对鸟瞰图上的边框使用了非极大值抑制(NMS)。不同于[23]，我们没有使用3D边框的非极大值抑制，因为不同物体在地平面上应该占据不同的空间。我们将非极大值抑制的IOU阈值设为0.7。在训练期间我们会保留前2000个边框，但在测试中我们只会使用前300个边框。

图4：基于区域的融合网络的训练策略：在训练过程中，加入倒数第三条路径和损失，使网络正规化。辅助层与主网络中的相应层共享权重。

3.3 基于区域的融合网络

我们设计了一个基于区域的融合网络，以有效地组合来自多个视图的特征，并共同对提议边框进行分类和对边框进行定向回归。

多视角感兴趣区域池化。由于来自不同视图和模态的特征通常具有不同地分辨率，我们对每个视图进行ROI池化[10]以获得相同长度的特征向量。提供生成的3D边框提议，我们将他们投影到3D空间的每个视图中。在我们的例子下，我们将它投影到三个视图中，即鸟瞰图（BV），正视图（FV）和像平面（RGB）。提供3D边框提议，我们通过公式(2)计算获得ROIs

其中表示激光雷达坐标系到鸟瞰图，正视图和像平面各自的转换函数。给定每个视图的前端网络的输入特征图x，我们通过公式（3）获得固定长度的特征

图5:3D边界框召回率：从左到右：召回率vs 使用300个提议边界框时不同的IoU阈值，召回率 vs 在IoU阈值分别为0.25和0.5时使用不同数量提议边界框。根据KITTI验证集的中等难度数据评估召回率。

深度融合。为了结

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[236433]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

面向自动驾驶场景的多视图三维目标检测网络外文翻译资料

摘要

1.介绍

2.相关工作

3.MV3D网络

3.1 3D点云表示

3.2 3D提议网络

3.3 基于区域的融合网络

您可能感兴趣的文章

登录

摘要

1.介绍

2.相关工作

3.MV3D网络

3.1 3D点云表示

3.2 3D提议网络

3.3 基于区域的融合网络

您可能感兴趣的文章