基于RGB-D数据的三维室内场景建模:一项调查外文翻译资料

 2021-11-17 23:10:33

英语原文共 12 页

基于RGB-D数据的三维室内场景建模:一项调查

摘要:三维场景建模一直是计算机图形学和计算机视觉中的一个基本问题。随着消费级RGB-D相机的普及,人们对数字化真实室内3D场景的兴趣也越来越大。然而,室内三维场景的建模仍然是一个具有挑战性的问题,因为室内物体的结构复杂,消费者级传感器获取的RGB-D数据质量较差。提出了各种方法来应对这些挑战。在本次调查中,我们概述了室内场景建模技术的最新进展,以及公共数据集和代码库,这些都有助于实验和评估。

关键词:RGB-D相机;三维室内场景;几何建模;语义建模;调查

1 介绍

消费者级别的彩色和深度(RGB-D)相机(如Microsoft Kinect)现已广泛提供,并可供公众使用。普通人现在可以很容易地从他们的真实家庭和办公室获得3D数据。与此同时,其他蓬勃发展的3D技术,如增强现实、立体电影和3D打印,也越来越接近我们的日常生活。我们生活在一个“数字地球”。因此,人们越来越需要将生活环境数字化。

尽管有着巨大的需求,但帮助普通人快速、轻松地获取他们生活环境的三维数字表示仍然是一个迫切而具有挑战性的研究问题。在过去的几十年里,我们见证了互联网上数码照片的爆炸式增长。得益于此,基于挖掘和分析大量二维图像的图像相关研究得到了极大的推动。相比之下,尽管过去几年3D数字模型的增长速度加快,但增长仍然相对缓慢,主要是因为制作3D模型是一项需要专业知识且耗时的艰巨工作。幸运的是,低成本的RGB-D相机的可用性以及建模技术的最新进展为改变这种情况提供了一个巨大的机会。从长远来看,三维大数据有可能改变三维可视化数据处理的格局。

这项调查的重点是数字化现实世界的室内场景,这些场景近年来受到了极大的关注。它有许多应用程序,可能从根本上改变我们的日常生活。例如,有了这些技术,家具商店就可以在网上提供产品的3D模型,以便客户更好地查看产品并选择要购买的家具。没有室内设计经验的人可以向专家或专家系统[1,2]提供他们家的数字表示,以获得更好的家具布置建议。任何人都可以通过互联网访问世界各地的数字化博物馆。此外,模拟的室内场景可用于增强现实[4,5],并可作为智能机器人更好地了解现实环境的训练基础[6]。

然而,室内场景建模仍然是一个具有挑战性的问题。这些困难主要来自两个原因[7]:第一,与室外建筑立面不同,室内物体往往具有更复杂的三维几何结构,周围环境混乱,各部分之间存在较大差异。其次,消费级扫描设备捕捉到的深度信息往往噪音大,可能会失真,并且可能存在较大的间隙。为了应对这些挑战,在过去的几年里,人们提出了各种各样的方法,这仍然是计算机图形学和计算机视觉界的一个活跃的研究领域。

论文的其余部分将按以下方式组织。我们首先在第2节中介绍不同类型的RGB-D数据及其属性。还将讨论公共可用的rgb-d数据集以及处理rgb d数据的有用编程库。在第3节中,我们根据现有方法的基本设计原则对其进行了系统分类,概述了各种技术,并检查了其优缺点。最后,在第4节中,我们总结了当前的技术现状,并阐述了未来的研究方向。

2 RGB-D数据

“没有稻草就不能做砖。”尽管室内场景建模的重要性以及RGB-D扫描仪已经存在几十年了,但直到2010年微软推出Kinect运动感应输入设备时,它才成为研究的焦点。Kinect比它最初发布的游戏控制器有着更深远的意义,因为它有一个内置的深度传感器,具有合理的准确度,价格非常低廉。如此便宜的RGB-D扫描设备使普通人在家里拥有一台成为可能,使室内场景建模的3D建模技术得以开发和广泛应用。在详细讨论建模算法之前,我们首先简要介绍了本节中的RGB-D数据,包括不同类型的RGB-D数据及其属性。

2.1 类型和性能

已经开发了各种技术来获得RGB-D数据。这些技术包括被动技术,如立体摄像机对,其中深度是从每台摄像机拍摄的图像之间的差异推导出来的,以及主动技术,其中发射某种光线以帮助深度计算。后者由于其有效性(例如,尤其是无纹理表面)和准确性而被广泛使用。目前,光探测测距(LIDAR)是获取RGB-D数据的主要方式。根据其工作方式,激光雷达系统可分为两类:无扫描激光雷达和扫描激光雷达[8]。在无扫描激光雷达系统中,每一个激光或光脉冲捕捉整个场景,而不是在扫描激光雷达系统中用激光束逐点捕捉。一种典型的无扫描激光雷达系统是飞行时间(TOF)相机,用于许多消费级的RGB-D相机(包括最新的Kinect V2)。TOF摄像机成本低,速度快,适合实时应用,工作范围适中。这些优点使TOF摄像机适合室内应用。另外,一些RGB-D相机,包括Kinect的第一代,都是基于结构光。通过投影特定图案并分析捕获的图案图像,可以恢复深度。TOF和结构化光技术都是无扫描的,因此它们可以生成动态的三维流,从而使三维室内场景建模更加高效和可靠。

TOF相机中的激光脉冲和用于结构光相机的图案被组织成二维阵列,以便深度信息可以表示为深度图像。深度图像和对齐的RGB图像形成一个RGB-D图像帧,该图像帧描绘目标场景的单个视图,包括颜色和形状。这样的RGB-D图像帧可以不投影到三维空间,形成彩色的三维点云。RGB-D图像和彩色点云是RGB数据最常见的两种表示形式。由于RGB-D图像与图像具有相同的拓扑结构,因此它们主要由计算机视觉社区使用,而在计算机图形社区中,RGB-D数据通常被视为点云。从射影相机获得的点云是有组织的(也称为结构化或有序的)点云,因为三维空间中的点与图像空间中的像素之间存在一对一对应关系。这种对应关系包含三维点之间的邻接信息,在某些应用中很有用,例如,它可以简化算法或使算法更有效,因为可以轻松确定相邻点。了解相机参数、有组织的彩色点云和相应的RGB-D图像是等效的。如果彩色点云不存在等效的RGB-D图像,则点云是无序的(非结构化、无序)。要完全描述目标场景,通常需要从不同视图中捕获多个RGB-D图像帧。由于通常使用无扫描器相机,拍摄的场景RGB-D数据基本上是RGB图像流(序列),之后可以使用3D配准技术将其缝合到整个场景点云中。

根据操作机制,激光雷达系统无法捕捉高度吸收或反射材料表面的深度信息。然而,这种材料在真实的室内场景中非常常见,被用作镜子、窗玻璃、电视屏幕和钢制表面等。这是所有激光系统的一个基本限制。除了这种常见的限制之外,消费者级的RGB-D相机还有其他缺点,这是由于它们的低成本造成的。首先,这种相机的空间分辨率一般较低(最新的Kinect为512times;484像素)。其次,深度信息有噪声,通常会造成明显的相机失真。第三,即使对于没有吸收或反射材料的场景,深度图像仍可能涉及对象边界周围的小间隙。一般来说,廉价扫描设备获取的深度信息是不可靠的,实际的室内场景建模算法必须考虑到这一点。

2.2 公共数据集

近年来,已经引入了许多包含室内场景的公共RGB-D数据集。尽管这些数据集中的大多数都是为特定的应用而构建和标记的,例如场景重建、对象检测和识别、场景理解和分割等,但只要它们提供室内场景的完整RGB-D图像流,它们就可以用作室内场景建模的输入。这里我们简要描述一些流行的场景(每个数据集的示例场景如图1所示)。

康奈尔RGB-D数据集[9,10]:此数据集包含24个办公场景和28个家庭场景的RGB-D数据,所有这些都由Kinect捕获。每个场景的rgb-d图像使用rgb-d slam算法缝合到场景点云中。对象级标签在缝合的场景点云上提供。

图1 每个公共数据集中的示例rgb-d数据。

华盛顿RGB-D场景数据集【11】:该数据集包括14个室内场景,包含9类对象(椅子、咖啡桌、沙发、桌子、碗、帽子、麦片盒、咖啡杯和苏打罐)。每个场景都是一个点云,通过使用面片体积映射对齐一组Kinect RGB-D图像帧而创建。背景和9个对象类的标签在缝合的场景点云上给出。

纽约大学深度数据集【12,13】:该数据集包含528个不同的室内场景(第一个版本【12】中为64个,第二个版本【13】中为464个),使用Kinect从美国大城市捕获。这些场景主要集中在住宅公寓内,包括起居室、卧室、浴室和厨房。1449个选定帧提供了类和实例级别对象的密集标签。此数据集不包含相机姿势信息,因为它主要用于单帧分割和对象识别。要获得完整的三维场景点云,用户可能需要从原始的RGB-D流估计相机姿态。

Sun 3D数据集【14】:该数据集包含Kinect从北美、欧洲和亚洲41个不同建筑中254个不同室内场景拍摄的415个RGB-D图像序列。语义类多边形和实例标签在框架上给出,并在整个序列中传播。每个帧的相机姿势也可用于配准。这是目前最大和最全面的室内场景的RGB-D数据集。

UZH数据集[15]:与上面提到的其他数据集不同,这个数据集是专门为建模而构建的。它包含了由法罗激光雷达扫描仪扫描的40个学术办公区的全点云,这比像Kinect这样的消费级相机具有更高的精度,但也更昂贵。

2.3 开放源代码库

自从Kinect和其他消费者级的RGB-D相机发布以来,RGB-D数据就变得流行起来。因此需要支持有效处理RGB-D数据的公共可用库。点云库(PCL)[16]于2011年推出,是一个用于二维/三维图像和点云处理的开放源代码库。PCL框架包含许多最先进算法的实现,包括过滤、特征估计、表面重建、配准、模型设定和分割。由于其强大的功能和宽松的BSD许可证(Berkeley软件发行版),它可能是最流行的用于商业和研究用途的RGB-D数据处理库。

另一个有用的库是移动机器人编程工具包(MRPT)(17),它包括一组C 库和许多可以使用的机器人相关应用程序。RGB-D传感器可以有效地用作机器人的“眼睛”:通过感知的RGB-D数据了解现实环境是智能机器人的核心功能之一。这个库包含了处理RGB-D数据的最先进算法,重点是机器人应用,包括SLAM(同步定位和映射)和目标检测。

3 建模技术

在介绍了RGB-D数据之后,我们现在将在本节中讨论各种室内场景建模技术。根据建模目的,这些方法通常可分为两大类:几何建模(第3.1节)和语义建模(第3.2节)方法。前者的目的是恢复场景中三维对象的形状,而后者的重点是恢复语义意义(如对象类型)。

3.1 几何造型

基于RGB-D数据的几何建模是计算机图形学中的一个基本问题。自20世纪90年代以来,研究人员一直在研究使用激光扫描仪数字化3D物体形状的方法,尽管直到最近,普通人才能够使用3D扫描仪。早期的工作通常从注册激光传感器捕获的一组RGB-D图像(即将RGB-D图像转换为全局坐标系)开始,并将对齐的RGB-D帧融合为单点云或体积表示,可以进一步转换为基于网格的三维模型。使用体积表示可以确保生成的几何图形是拓扑上正确的流形。图2是典型的几何建模结果。在此基础上,几何建模问题可以分为配准和融合两个阶段。已经进行了大量的研究,并为这两个阶段建立了理论上合理的方法。在配准阶段,迭代最近点配准(ICP)配准[18,19]和同步定位和映射(SLAM)[20]及其变体通常产生良好的解决方案。对于融合阶段,最广泛采用的解决方案是Curless和Levoy[21]提出的体积技术,该技术可以使用有符号距离函数(SDF)对每个帧进行强大集成。

图2 几何建模结果

几何室内场景建模方法是传统配准融合算法对室内场景的扩展。主要区别在于,这些技术必须考虑到消费级RGB-D相机所捕获的RGB-D数据的特性,即低质量和实时序列。一种众所周知的技术是Kinect融合系统[4,5],它提供了使用移动Kinect相机进行详细(LOD)扫描和创建模型的功能。与传统的方法一样,Kinect Fusion通过保持内存中每个体素网格的有符号距离值来采用所获取场景的体积表示。然而,不同于传统的帧到帧的配准,每个帧都被注册到整个构建的场景模型中,而不是以前的帧,使用一个粗到细的迭代ICP算法。这种帧到模型的配准方案具有更高的抗噪声和相机失真能力,并且不足以实现实时应用。该系统具有易用性、实时性、LOD重建等优点,近年来,Heredia和Favier[22]通过体积变换,进一步将Kinect基本融合框架扩展到更大规模的环境中。然而,当用作室内场景建模的建模系统时,基于体积表示的机制明显限制了其在大型和复杂场景中的使用,原因有几个。即使用中等分辨率重建大尺度场景来描述必要的细节,也需要大量的内存,很容易超过普通计算机的内存容量。此外,采集和注册错误不可避免地存在,并且对于消费级扫描设备来说是非常显著的。尽管帧到模型注册比帧到帧注册更为健壮,但它仍然不是一种全局优化技术。扫描更大的场景需要更长的移动轨迹。在长时间的采集过程中,误差不断累积,最终导致重建失败。一个典型的例子是当摄像机轨迹形成闭合环时,使用Kinect Fusion重建大房间时,环路闭合问题会导致错位。

Kinect Fusion是为在相对较小的环境中进行实时在线建模和交互而设计的。更通用的建模框架是rgb-d slam[23]。如前所述,廉价扫描设备获得的深度信息是不可靠的。然而,在估计相机姿态时,对齐的RGB图像可以提供重要的附加信息。来自RGB图像的外观特征和来自深度图像的形状特征可以相互补充,并一起提供帧之间更为可靠的点对应关系。此外,在实际的扫描过程中,在摄像机的轨迹中经常会有环路闭合。因此,重叠不仅可能存在于连续帧之间。当计算摄像机姿态时,可以检测到环路闭合,并且相应帧之间的空间关系提供了额外的约束。RGB-D帧的整个序列可以表示为一个图,其中每个节点是一个帧,每个边存储两个相邻节点之间的空间变换。这种图称为姿态图,可以使用SLAM算法[20]进行有效优化(参见参考文献[24]了解各种最先进的SLAM算法)。RGB-D SLAM框架的总管道如图3所示。

图3 RGB-D SLAM框架的管道。

RGB-D SLAM方法可以分为两种类型:稀疏映射和密集映射。对于稀疏映射,只有少数稀疏选择的关键帧用于重建,可以快速提供目标

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。