点网络(PointNet):深度学习在点集上的分类与分割外文翻译资料

 2022-01-08 21:20:58

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


点网络(PointNet):深度学习在点集上的分类与分割

摘要

点云是一种重要的几何数据结构。由于其不规则的格式,大多数研究者将这种数据结构转化为规则的三维体素网格或者一系列的图片。但是这种方式不必要的渲染了大量的数据而且会带来一些问题。在这篇论文中,我们设计了一种新式的能够直接处理点云数据的神经网络,并且这种网络很好的遵守了排列不变性的原则。我们提出的网络,被称作点网络(PointNet),为从物体识别,部分分割到场景语义分割等一系列应用提供了一种统一的网络结构。尽管其结构简单,点网络任然是高度有效的。从经验上,点网络与目前最好的算法相比展现了除了相同甚至更好的强力表现。从理论上,我们提供了对神经网络所学到的内容和为何网络对输入的扰动和变形是鲁棒的分析。

1.引言

在这篇论文中,我们研究了能够对类似点云数据的三维几何数据结构进行推理的深度学习结构。典型的卷积神经网络需要高度规则的输入数据结构,例如那些图片的网格和三维的体素,来实现权重分享和其他的核优化。但是由于点云或者网孔不是规则的数据结构,大多数研究者在将数据输入神经网络之前,把这种不规则的数据结构转化为了规则的三维体素网格或者一系列二维图片(例如从不同视角)。但是这种数据结构形式的转换,需要不要的大量结果数据渲染,而这也带来的量化的人为因素会会干扰数据自有的不变性。

由于这个原因,我们将研究聚焦在了不同的三维几何输入表示形式,使用简单的点云数据-这也使我们的深度网络被称作点网络。点云是简单且同意的结构,能够避免网格数据的组合不规则性和复杂性,所以更加容易从中学习。不仅如此,点网络遵从了由于点云知识一个点的集合而带来的对其元素具有的排列不变性,这迫使了神经网络计算中需要保持对称性。对刚体运动的不变性也需要被进一步考虑。

我们提出的点网络是一个统一的结构,能够直接将点云数据作为输入,而输出每个点的种类标签或者每个点的分割标签。我们网络的基础结构惊人的简单,在初始状态,每个点被独立而相同的方法处理。在基本的设置下,每个点仅仅被三个坐标(x,y,z)表示。可以通过计算常量和其他的局部或全局特征来加入附加维度。

我们提出方法的关键点在于使用了一个对称的函数,最大池化。有效的使网络学习了一系列的优化函数或标准,从而能够从点云中选择有趣的或者信息丰富的点,并将选择的原因编码。网络最后的全连接层,为整个形状累积了这些学习到的最优值到全局的描述符中。描述符被用来形状的分类或者在形状分割中预测每个点的标签。

我们的输入形式由于每个点被单独的变换,而易于施加刚体变换。因此,我们可以增加一个依赖数据的空间变换网路,来试图在点网络处理之前规范化这些数据,从而进一步提高结果。

我们对提出的方法同时提供了理论分析和实验性的评价。我们展示了所提出的网络可以近似任何连续的函数。更加有趣的是,事实证明我们的网络学会了通过一些稀疏的关键点集合来概括种整个点云,而这些关键点大致对应了物体的轮廓。理论分析提供了一种解释为什么我们提出的点网络是对小的输入点扰动,以及缺少数据高度鲁棒的。

从形状分类到部分分割,场景分割的一系列基准数据集上,我们将提出的点网络与目前最好的基于多视角和体积化表征的方法进行了对比。在一个同一的结构下,我们的点网络不仅在速度上更快,同时也效果上也展现出了相媲美或更优的强力表现。

我们工作的主要贡献如下:

我们设计了一个能够处理未排序的点集的新式网络结构;

我们展示了如何训练一个网络来实现三维形状分类,形状部分分割,场景语义处理这一类任务;

我们提供了对所提出方法在稳定性和有效性问题上全面的经验分析和理论分析;

我们通过选取的网络中的神经元来阐释了其所计算的三维特征,并建立了对齐表现直觉性的解释

通过神经网络处理无序的几何的问题是一个非常普遍和基础的问题,我们期望我们的想法能够被同样被迁移到其他领域。

2.相关工作

点云特征 大多数已有的额点云特征都是为解决特定的任务而认为设计的。点特征经常编码了特定的点的统计属性,并且被设计为不随一定的变换而变化,这些特征被典型化的分类为本征的或非本征的,也可以被分类为局部特征和全局特征。对于一个特定的问题,找到一个最优的特征组合来解决是不现实的。

三维数据上的深度学习 三维数据有着多种流行的表示方式,这也带来了不同的学习方法。体积卷积神经网络(Volumetric CNNs):[28,17,18]是运用三维卷积神经网络在体素化形状上的先锋。但是由于数据的稀疏性和三维卷积的计算成本,体积化表示受到了很大的限制。FPNN和Vote3D提出了特殊的方法来处理稀疏性的问题。尽管如此,他们的操作任然实在稀疏的体积上,因此难以处理大量的点云数据。多视角卷积神经网络(Multiview CNNs):[23,18]尝试将三维点云或者形状渲染为二维的图像,然后应用二维的卷积网络来对其分类。有着良好设计的图片卷积神经网络,这一系列的方法在形状分类和重建问题上已经取占据了主要的地位。但是,将这种方法拓展到场景理解或者例如点分类和形状补全等问题上是不可行的。谱卷积神经网络(Spectral CNNs):一些最近的工作在网格数据上使用了谱卷积神经网络。尽管如此,这些方法目前任受限于例如有机对象的流形网格,而如何将这种方法应用于例如家具等非等距图形上依然不明确。基于特征的深度神经网络(Feature-based DNNs):[6,8]首先将三维数据转化为向量,通过提取传统的形状特征,并使用全连接的网络来对形状分类。我们认为会被提取的特征的表征能力所限制。

无序集上的深度学习 从数据结构的角度看,点云是一个无序的向量集合。在大多数工作集中于例如序列(在语言处理领域),图像和体积(视屏或三维数据)的规则的输入表示上时,在点集上的深度学习问题研究依然较少。

Oriol Vinyals等人最近的工作研究了这个问题。他们使用了一种读取-处理-写入网络和注意力机制来处理无序的输入集合,并展示了他们的网络有能力对数进行排序。但是,由于他们的工作集中在通用的几何和自然语言处理应用上而在集合中缺少了集合的角色。

3.问题描述

我们设计了一个深度学习的框架,其能够直接将无序的点作为输入。一个点云被表示为一些三维点的集合,集合中每个点是一个由其(x,y,z)坐标加上二外的特征通道例如颜色等构成的向量,为简单和清晰起见。除非特别说明,我们只使用xyz坐标作为点的特征。

对于物体分类任务,输入的点云是直接从一个形状采样得到或从一个场景点云中预先分割得到。我们提出的深度网络为所有的k个候选类别输出k个分数。对于语义分割任务,输入可以使一个单个的物体来做部分区域的分割,或者从属于一个三维场景的子空间来进行目标区域分割。我们的模型会对每个点和每个语义类别输出nxm个分数。

4.点集上的深度学习

我们提出的网络结构受启发于n维实数域中点集的性质

4.1.Rn中点集的性质

我们的输入是一个在欧式空间的点的子集,它具有三个主要的性质

无序性。不同于图像中的像素阵列或者体积化网格中的体素阵列,点云是一个没有特定顺序的点的集合。换句话说,一个处理N个三维点的网络的输出必须对N的阶乘种排列输入顺序具有不变性。

点间的相互作用。点是来自于一个有着距离度量的空间。这意味着点并不是独立的,而是与一个有意义的点子集相邻。因此,模型需要能够从邻近的点和局部结构的组合作用中捕捉局部结构。

4.2.点网络架构

我们完整的网络架构的可视化在图二中,图中分类网络和分割网络共享了一大部分结构,请阅读图下的标注来理解整个网络的传输途径。

我们的网络有三个模块:一个最大池化层作为对称的函数来从所有点累积信息,一个局部和全局信息的组合结构,和两个对准网络将输入点和点特征对其。

在接下来的章节中,我们会讨论我们选择这些设计的原因。

处理无序输入的对称函数 为了使模型对输入排列不变,有着三种策略:1)将输入排序到一个标准序列;2)将输入作为一个序列来训练循环神经网络,但是通过增加所有的排列来训练网络;3)使用一个简单的对称函数来从每个点累积信息。这里,一个对称函数将n个向量作为输入,并输出一个对输入排序不变的新的向量。例如,加法和乘法都是对称的二元函数。

虽然排序听起来是一个简单的解决办法,但是在高纬空间中实际上不存在一种排列顺序对点的扰动是稳定的。这个问题可以简单地通过对比证明。如果存在一个排序策略,其定义了一个关于高纬空间和一维实线上的双向映射图。不难以发现,得到一个对点的扰动稳定的排序等效于得到的映射图在维度降低的时候任然保留了空间的邻近关系。因此,排序不能完全解决点的顺序问题,而且,对于网络来说,其难以学习一个从输入到输出不变的映射。正如在试验中展示的一样,我们发现直接在排序后的点上应用多层神经网络的结果表现的很差,尽管比直接处理未排序的点稍微好一点。

将点集视作一个信号序列并使用循环神经网络在随机排列的序列上训练的想法,虽然循环神经网络最终会对输入的排序不变,但是在“顺序的影响”一文中,作者已经展示了顺序确实会影响神经网络,且不能被完全忽略。尽管循环神经网络对长度较短的序列有着相对较好的排序鲁棒性,其任然难以处理放大到数千个点的输入元素,而这一量级的数据对于点云来说则十分常见。经验上讲,我们已经展示了基于循环神经网络的模型不能达到本文所提出模型的效果。

我们的想法是通过对转换后的集合中的元素运用一个对称的函数,来近似一个通用的定义在点集上的函数。

经验上显示,我们的基础模型十分简单,我们通过一个多层神经网络近似h函数,通过一个单变量函数和一个最大池化函数的组合来近似g函数。这种近似方法在试验中被发现十分有效。通过许多的h函数,我们可以学习到很多的f函数来捕捉集合不同的特征。

虽然我们的关键模型看起来简单,它却拥有着有趣的性质,并且可以在很多的应用上达到很好的效果。由于模型的简单性,我们也能够提供模型的理论分析。

局部与全局信息累积 上一节的输出构成了一个向量,其也是整个输入集合的全局特征。我们可以很容易的根据全局信息训练一个支持向量机(SVM)或者一个多层感知机分类器来进行分类。但是,点分割需要全局信息和局部信息的组合。我们可以通过一个简单而高度有效的手段来实现这种组合。

我们的方法展示在图2中,在计算了全局点云的特征向量后,我们通过拼接全局特征与每个点的特征将其反馈到每个点上。然后,我们基于组合后的点特征向量提取新的每个点的特征-这时,每个点的特征同时具备局部和全局信息。

有了这种修改,我们的网络可以同时根据局部几何特征和全局语义来预测每个点的分类。例如,我们可以准确的预测每个点的法向,验证了网络可以概括点的局部信息。在实验部分,我们也展示了我们的模型可以在形状分割和场景语义分割上达到目前最好的水平。

联合对齐网络 一个点云的语义标签必须在点云经过一定的几何变换后保持不变。例如刚体变换,因此我们希望学习到的点的表征是对这些变换具有不变性的。

一个自然的解决办法是将所有的点在特征提取之前对齐到一个标准的空间。Jaderberg等人介绍了一种通过采样和插值的空间变换来对齐二维图片的想法,这种方法则通过一种特殊修改的网络层在GPU上实现。

我们的点云输入形式让我们能够以一种比[9]更加简单的方法来实现这个目的。我们不想要发明任何新的网络层,也不需要任何在处理图片时需要引入的各种假设。我们通过一个迷你网络预测一个仿射变换矩阵,并直接将这种变换应用于输入点的坐标上。这个迷你网络本身集成了大网络并由点独立的特征提取,最大池化和全连接层这些基础模块构成。更多有关转换网络的细节将在补充材料中介绍。

这种对齐的思想可以同样进一步扩展到特征空间的对齐。我们插入了另一个对齐网络在点特征上,然后预测了一个特征转换矩阵来对齐来自不同输入点云的特征。尽管如此,特征空间中的转换矩阵有着比空间转换举证更高的维度,这也大大的增大了优化的难度。因此我们给我们的训练损失加入了一个规则化项。我们限制特征变换网络尽量接近正交矩阵。

式中A是由迷你网络预测出的特征对齐矩阵。一个正交的变换不会损失输入的任何信息,因此希望特征对齐举证是正交的。我们发现通过加入规则项,优化过程变得更加稳定,我们的模型也取得了更好的结果。

4.3.理论分析

通用的近似 我们首先展示了我们的神经网络对连续的集合函数通用的近似能力。根据集合函数的连续性,直觉上,一个小的对输入点集的扰动不会大幅度改变函数值,例如分类结果或者分割分数。

形式上,定义X为数量为n且元素的值域在0到1的m维度点集,f为关于Hausdorff距离的从点集到实数域的连续集合函数。例如,对于任意小的实数,存在另一个正数,使得对于任意的集合X中的两个点,如果两个点间的Hausdorff距离小于该正数,则这两个点关于f的函数值之差小于任意小的实数。我们的理论说明我们的神经网络在池化层给定足够的神经元后,可以任意的近似f函数。例如K在式(1)中足够大。

理论1.假设函数f:从点集X到实数域的映射是一个连续的关于Hausdorff距离的集合函数。对于任意小的实数,存在一个连续的函数h和一个对称的由最大函数和连续函数构成的复合函数g,使得对于点集中的任意点集合有,f的函数值与g对点集经过h函数变换后的函数值的函数值之差小于该任意小的实数。

这个理论的证明被写在补充材料中。证明的关键

全文共6810字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[1850]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。