英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
基于微深度学习轮廓测定法
的高速三维表面成像
摘要
如何以尽可能快的速度和尽量高的精度,从被记录的光学信号中获取尽可能丰富的目标信息,已经成为了追求强大成像技术的关键性问题。如今,超高速摄影的速度可以超过一千万亿。然而,它只能记录缺乏深度信息的二维图像,极大地限制了我们感知和理解复杂现实世界对象的能力。受最近深度学习在机器视觉邻域成功的启发,我们提出了一种新型的、使用结构光照明的高速三维表面成像方法,并将它命名为微深度学习轮廓测定法()。通过适当地训练深度神经网络,相位信息能够从单一条纹图像中预测,并且能够被转化至三维形状中。从实验中我们证明得知,可以以2000帧每秒的速度准确地获取动态目标物体的几何信息。此外,比较结果表明,在相位精度、重建效率和易于实现方面,相比使用基于傅里叶变换的快速三维成像技术,具有更加优越的性能。验证可知,是一种强大的高速三维表面成像方法。
关键字:深度学习,三维表面成像,结构光
介绍
通常来说,我们如今所说的关于高速摄影的第一个实例,是为了解决发生在1872年的一个激烈争论:马的步态中是否存在四只蹄子同时离开地面的时刻?运动研究领域的先驱埃德沃德·迈布里奇开发了一套成像系统,包括12台由马腿通过绊网触发的相机,以接近每秒2000帧的快门速度在玻璃板上成功捕捉照片。在那以后,高速摄影的主要发展,就像科学目的一样,是在冷战期间核武器研究之后出现的。随着旋转镜技术、条纹相机和旋转棱镜相机的应用,成像速度飙升至一亿帧每秒,即兆帧每秒。19世纪后期,由于电子半导体器件的巨大突破,高速成像技术有了进一步的发展,使得基于胶片的相机逐渐被基于CCD或CMOS的相机所取代。如今在激光,也就是飞秒激光脉冲的协助下,成像速度甚至可以超过1千万亿,即帧每秒。得益于高速摄影的不断增长的能量,许多发生在飞秒到纳秒时间尺度的、反映了重要基本原理的暂态事件得以被深入分析。
然而,大多数高速相机和成像系统只能记录缺乏深度信息的二维图像。这一基本约束极大地限制了我们感知和理解复杂现实世界对象的能力。在过去的几十年里,由于传感器、光学工程和机器视觉的快速发展,三维成像技术在生物力学、地质材料、工业制造等诸多领域都有了巨大的发展。一般而言,光学三维表面成像技术可分为两类:被动成像技术和主动成像技术。立体视觉技术是一种典型的被动成像技术,它从两个或多个视点捕获物体固有的表面结构,通过三角法计算其三维形状。。然而,它们容易受到均衡和周期性结构的影响。相较于被动感知,主动方法利用预先设计的信号对测试对象进行编码,从而减少了对物体结构的依赖,提高了三维重建的精度。
飞行时间测距技术(ToF)将调制后的光线发射到测试对象上,并收集散射回来的光线。然后通过光速乘以光脉冲的延迟时间来估计距离。由于基于ToF的三维重建与三角法无关,因此该系统可以非常紧凑地用于便携式设备首选的应用。微软Kinect-2利用这一技术进行实时的三维成像,并应用于人机交互。但是由于光速太快,在短程检测中ToF的深度精度一般不高。结构光技术作为另一种广泛应用的主动方法,对二维空间变化亮图案的测试场景进行照明。根据捕获的结构光图案的失真信息提取三维模型。由于具有良好的灵活性和通用性,基于结构光照明的三维表面成像正受到越来越多的关注,并变得越来越重要。这些技术在商业上的成功包括Microsoft Kinect 1、Intel RealSense、Apple iPhone X和OPPO Find X。由于智能制造、无人驾驶汽车和云成像技术的进步,开发实时(sim;30 fps)或高速(gt; 10,000 fps)3D成像技术的愿望从未如此明显。
高帧频成像传感器和数字投影技术的迅速发展为强大的高速三维表面成像系统的生成提供了新的途径。然而,与以每秒数万帧甚至更快的速度运行的高速相机相比,投影机的正常工作速度要低得多,在投射灰度图案时通常约为每秒120帧。因此,离焦技术得以发展,利用二值抖动技术和透镜离焦数字光处理投影仪可以以最大允许帧率(通常超过1000 帧每秒)投射准正弦条纹图案。一旦克服了系统硬件的限制,主要关注的重点就变成了成像理论,其关键是减少一次全光通信三维重建所需的图像数量。直观地说,空间复用技术或一次性技术,如基于轮廓测定的傅里叶变换(FT)、窗式傅里叶变换(WFT)、小波变换技术和强度关联方法,都非常适合于扫描运动物体。由于编码可以被压缩成一个单一的图案,这些方法在高速三维表面成像方面具有理想的效率。然而,由于这些方法对局部区域的连续性和平滑性的固有假设,使得它们对不连续的部分(如物体边缘)分辨率和深度、精度不高。
对于高精度的三维表面成像,研究人员通常更倾向于时间复用或多镜头技术,这些技术得益于从时态上收集的大量信息。一些技术投射出许多随机强度图案来实现主动高速立体视觉三维测量。然而由于一个相对较长的图像序列(通常大于 9帧)被要求提取一个全光通信的三维结构,三维重建趋向于向快速移动物体妥协。相比之下,相移轮廓术(PSP)是应用最广泛的多镜头方法之一,它可以通过投射一组小范围的相移条纹图像(最少三幅图像),产生精确的三维重构。然而即使是最小的图像,对运动也仍然敏感。其原因是物体运动违反了原始条纹图的名义相移,导致重构表面产生了人工波纹。此外,消除由于正弦信号的周期性而导致的相位模糊,其动机对于时间要求严格的PSP应用也是一个挑战,因为它可以很容易地使图像序列的大小增加至两倍甚至三倍。
为了减少图像序列的大小(在时域捕获),同时收集相当数量的信息,一些研究人员建议加强空间域的编码能力。为了减少相位展开的图像,可以有多个视点,如使用更多的相机来捕获结构光图案。得益于几何约束,该方法可以在不捕获额外图像的情况下区分条纹序列。但缺点是成像系统的结构会变得复杂。此外,由于使用了额外的高速摄像机,成本将大幅增加。或者,不借助更多的视点,,也可以通过将两个图像压缩为一个,或减少有不止一个目标的现有图案,来将空间编码策略引入到时间复用技术中。这些方法可以在不增加投影图像的情况下消除相位模糊度,但在投影条纹非常密集的情况下,相位展开会受到影响。最近,微FTP()被开发来测量短暂场景(在1000帧每秒)的三维轮廓。虽然动态的三维形状可以从密集的条纹图案中恢复,但是一些统一的图像(如纯白色图像)必须与结构光图案一起投影,以获得可靠的相位复原。因此,整体图像序列的大小仍然比较大,这使得三维成像对快速移动的物体比较敏感。
在这项工作中,我们提出一个新颖的微深度学习轮廓测定法(),它使得在暂态场景中高质量的三维模型重构得以实现。“微”意味着较小值的频率变化和周期条纹图案,允许高精度的相位测量和高电阻的整体光照。深度学习是一种强大的机器学习技术,在众多的成像和计算机视觉应用中取得了巨大的成功。由于机器学习的优势,其所提出的方法在三个方面都优于现有的方法。第一个方面是高效率。相位信息可以通过适当训练的神经网络从单个图像中提取出来。相比于,它只使用一半的图像来获得三维图像。其次,第二个方面是高质量的相位测量。根据我们的实验表明,的相位误差只有FT和WFT的三分之一,并且几乎是的一半。此外,我们的方法只需要3张图像就可以近似地再现使用36张图像的多镜头相移方法计算出的地面真实三维结果。第三个方面是易于使用。不同于傅里叶基本变换方法的相位测量深深依赖于参数的微调,如FT的窗口尺寸、、采样间隔和WFT的频率阈值等,这里提出的是全自动的。一旦神经网络被训练,意味着可以避免穷举搜索最优参数。实验证明是一种强大的高速三维表面成像方法,它可以以20,000fps为瞬态场景重建高精度的三维模型。
理论
通过深度神经网络进行相位复原
在中,条纹图像被结构光照明系统捕获。结构光照明系统通常由一个投影仪和一个相机构成。由图1所示的原理图可知,投影仪将一幅条纹图像发射到被测物体上,对被照表面进行编码。照相机从另一个不同的视点捕捉图像,在这一视点由于物体深度的变化,被观测到的条纹产生失真。然后根据被捕获的条纹图像计算相位,作为计算物体三维信息的线索。
图1 结构光照明的三维表面成像原理图
在图像投影时,利用具有稍微不同的波长或条纹音高的几个条纹图案。为了快速投影,正弦图形以二进制图案生成,并由离焦投影仪投影。被投影图案的波长通过考虑后被选择:首先,被选择的应该足够小,如频率应足够高以此获得高质量的相位复原。其次,波长的最小公倍数(LCM)应该大于投影仪的水平或垂直分辨率,这样可以适当地消除相位模糊。在这项工作中,我们投射垂直条纹,这意味着LCM()应该大于投影平面的宽度。对于确定的波长,投影图案的强度可以写成
(1)
在这里是投影仪的像素坐标,且。参数a和b分别为平均值和振幅。
图2 所提出的原理图
生成的图案被循序地投影和捕获。捕获图像的强度可以表示为
(2)
在这里是相机的像素坐标,表示背景亮度,表示调制部分,表示待解包裹的相位。在大多数相位测量技术中,包裹相位图通常从反三角函数中检索:
(3)
这里的和分别表示函数的分子和分母。c是一个取决于相位解调算法的常数。例如在FT中c=0.5,在N阶PSP中c=N/2。
图3 多尺度深度神经网络体系结构
为了实现基于机器学习的相位复原过程,我们构造了一个深度卷积神经网络。如上所述,我们更倾向于使用小型的条纹图像集来实现高速的三维表面成像。然而,一个或多个辅助相位图需要稳健的相位展开密集条纹图案。因此,我们通过完全采用三个条纹图案(即T=3)来进行三维成像,这可以产生三种相位图。一种用于三维重建,其他两种用于可靠性相位展开。图二给出了该方法的原理图。通过训练,神经网络可以预测每一个输入图像的分子和分母。每一组分子分母被放入反正切函数(公式3)中,从而得到包裹相位图。然后通过基于投影距离最小化的时间相位展开算法,获得展开相位分布函数。最后,利用相机和投影仪之间标定的映射参数,从绝对相位图中计算出三维曲面。
注意,我们提出的这种基于机器学习的条纹分析方法,使用两个神经网络来计算相位信息。对于瞬态三维测量的应用,本文做了一些改进。首先,只使用一个网络来进行相位复原,从而使学习过程变得容易,且节省了训练过程的时间。为了弥补背景亮强缺失的影响,本文提出了一种更强大的三标度数据处理体系结构结构来感知表面细节和学习相位提取。此外中的神经网络可以同时学习不同频率的条纹图案,然后输出相应条纹图案的中间结果,这提高了测量相位和三维轮廓线的效率。
图3显示了中神经网络的内部结构。每一层或块的标记尺寸表示输出数据的大小。网络的输入是条纹图像。每个输入图像的大小为Wtimes;H像素,其中W为宽度,H为高度。三条数据流路径被构造,以处理不同规模的输入图像。在保持原始输入数据大小的第一条路径中,条纹图像成功地被卷积层、一组剩余块和另一个卷积层处理。C表示卷积层中使用的滤波器数量,等于输出数据的通道数量。每个滤波器被用于为输出张量提取一个特征映射(通道)。相同的输入数据在第二和第三条路径中也经历了类似但更复杂的过程,在这两条路径中,数据首先被times;2和times;4降采样以获得高级感知,然后上采样以匹配原始维度。最后,每个数据流路径的结果连接到生成的最终输出,最终输出以三组对应于每一个输入图像的为主。对于多尺度数据流路径的设计, 输入图像包含的几何细节可以被精确地感知,从而确保高质量的相位信息估计。注意,直接输出具有条纹图像输入的包裹相位是很困难的,因为在跳跃处很难通过神经网络学习明显间断性。因此对于高精度的相位估计,深度神经网络被训练以计算在空间中连续变化的中间结果,即分子和分母。关于神经网络体系结构的更多细节在附录A中被提供。
相位展开与三维重建
把估算得到的分子和分母带入式(3)后,计算出对于每个输入条纹图像的包裹相位图。为了消除的相位不连续性,我们使用基于投影距离最小化的时间相位展开法。给定一个像素点的包裹相位的矢量,这里Trs表示换位,相应的展开相位矢量为,其可以被表示为
(4)
这里,是我们为相位展开而计算的整数条纹序列的矢量。通过带入波长计算,可以得到如下关系
(5)
公式(5)显示,每个像素点的展开相位在空间排成一排。因此在提及的约束(指在像素系中投影平面的宽度)下,会有一种独特的限制性条纹级数矢量k,它相当于测量范围。理论上讲,每个像素点的展开相位将与公式(5)中表示的线完美匹配。然而,由于随机噪声和现实中非正弦条纹强度的影响,展开相位经常围着这条线散射。因此,每一个候选展开相位和这条线的投影之间的距离被计算。当距离最小时,的期望值是确定的。
相位展开后,因为一组展开相位图被获取,他们中的一个被选定为,用于三维重建。在相机视角下,测试物体的给定点可由像素点反映出,我们可以用齐次方程来表示如下投影关系
图4使用训练阶段不存在的场景测试训练后的网络
(a)测量的场景 (b)时条纹图像
(c)时条纹图像 (d)时条纹图像
(6)
这里为比例因子,为相机的投影矩阵,是相机的外部参数矩阵与内部参数矩阵的乘积。在投影仪的另一个角度,当投影仪被认为是一个逆相机时有一个类似的过程
(7)
这里为比例因子,为投影仪的投影矩阵,是投影仪的外部参数矩阵与内部参数矩阵的乘积。给定这个像素的展开相位,相机像素和与它相应的投影仪像素之间的关系可以表示为
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236198],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。