英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
来自平面相机阵列的对称多视图立体重建
马蒂亚 梅克雷 约西萨 幸勒格瓦 敏恩多
微软 西门子医疗系统 伊利诺伊大学
雷德蒙德,华盛顿州 马尔文,宾夕法尼亚州 厄巴纳,伊利诺伊州
mmaitre@microsoft.com sinagawa@uiuc.edu minhdo@uiuc.edu
摘要
我们提出了一种新颖的立体算法,从平面相机阵列执行表面重建。 它结合了通用相机阵列和矫正后的双目设置的优点,像前者一样恢复大型表面,并执行高效的计算,如后者。 首先,我们介绍一种校正算法,它给出了相机阵列设计的自由度,并简化了光度计算和几何计算。 然后,我们定义了一组新的数据融合函数,这些数据融合函数在4个摄像机的邻域内对称地对待所有摄像机,并使标准双目立体视觉算法能够处理具有任意数量摄像机的阵列。 特别是,我们引入了一种光度融合函数,该函数处理局部可见性并沿水平和垂直基线提取深度信息。 最后,我们展示了分层深度图像和深度精灵可以从纠正的3D空间中有效提取。 实际图像的实验结果证实了该方法的有效性,该方法可以在筑波重建20%的密集表面。
1.介绍
在线虚拟实境已经成为为全球观众带来身临其境的交互式3D体验的一种方式。 然而,这些虚拟实境的现实内容的全自动创建仍然是一个悬而未决的问题。 这里面临的挑战是同时实现四个目标。 首先,渲染质量必须高,才能让虚拟世界看起来逼真。 其次,几何质量必须足以让基于物理学的模拟在物体之间提供可信的相互作用。 第三,计算复杂度必须足够简单以实现实时渲染。 最后,数据必须成一个紧凑的表示形式,以允许跨网络传输数据。
在本文中,我们提出了三个针对这些目标的贡献。首先,我们介绍一个专门校正3D空间和一个处理平面相机阵列的相关校正算法。它给相机阵列的设计带来了自由,使得它们的视野可以适应正在记录的场景。同时,纠正通过使体素的坐标和它们的像素投影整数来简化重建问题。 这消除了进一步数据重采样的需要,并简化了坐标系统和可视性计算的变化。
其次,我们提出了一组数据融合功能,使标准双目立体重建[13]能够处理具有任意数量相机的阵列。 该算法使用每个摄像头的一个深度图重建大型表面,筑波大20%,因此减少了新视角合成中的漏洞。 我们介绍两个马尔可夫随机场(MRF),这是一个经典的像素阵列和一个在摄像机阵列上的新颖场景。 后者让我们对所有的相机进行对称处理,通过定义4个相邻区域的融合功能。
最后,我们介绍一种全局融合算法,将深度图合并为独特的分层深度图像(LDI)[15],这是一种丰富但紧凑的数据表示,由深度图构成,每个像素具有多个值。 我们还表明,恢复的LDI可以完全自动分割成深度精细的[15]。这些图片精灵与几何图像有关,可以高效渲染和压缩[7]。
2.与以前工作的关系
表面重建方法分为两类,基于大型通用相机阵列和基于小型整流立体设置的方法,通常是双目,其中光学相机轴线垂直于基线。 前者[12,14,17,21]处理丰富的深度信息并可重建大型表面。 然而,相机位置的通用性使得可视性计算变得困难,并且体素投影在计算上很昂贵。
另一方面,在矫正后的立体设置[2,13,19]中,可见度和投影很简单。 这些设置还允许基于MRF上的最大后验概率(MAP)推断的高效重建算法。但是,从图像中提取的深度信息往往很差,特别是对于仅利用沿其基线具有显着梯度的纹理的线性阵列。此外,少数摄像机和约束编辑方向强烈限制了深度三角测量可能的体积。
观看方向上的约束可以使用整流来消除,该整流交换图像失真的视角自由度。 然而到目前为止,整流仅限于使用两个[4,8]或三个[1,18]相机的小型立体声设置。
在本文中,我们引入一个特殊的整形三维空间,并表明,当问题被定义为三维空间之间的转换时,而不是对齐核线,整流可以推广到具有任意数量摄像机的平面阵列。
相机阵列比双眼设置可以获得更丰富的信息。 然而,令人惊讶的是,额外的信息可能被证明是有害的,并且实际上降低了重建曲面的质量[22]。 问题来自部分可见的体素,其数量随着摄像机数量的增加而增加。 许多方法解决这个问题[3,10,22]。 然而,它们大部分都是不对称的,选择一台相机作为参考。 相距遥远的相机倾向于具有较少的可见表面,这限制了阵列中的相机数量,并因此限制了重构表面的面积。 此外,很多多视点立体方法在提取图像深度信息时忽略相机的相对位置[6,14],这会降低提取信息的判别能力。
在所提出的方法中,我们依靠多个深度图,每个相机一个,并且对称地对待所有相机。 此外,我们在相机阵列上定义了一种新颖的MRF,并考虑了相机的相对位置。 这样,所提出的方法处理具有任意数量摄像机的阵列并且提取沿着水平和垂直基线的深度信息。
基于多深度图的表面重建已经在[5,6,24]中进行了研究,但是这些方法缺乏所提出的纠正的三维空间,这导致了昂贵的操作来计算能见度,强化相机间几何一致性以及合并深度图。
从LDI提出的精灵的提取与深度图分割[9]有关,并且每个像素具有多个深度值的复杂性。而且,与[16]不同,分割是自动执行的,并不限于平面表面。
3. 整顿空间
3.1 概述
我们首先考虑纠正3D空间和2D相机图像的问题以简化立体重建问题。在下面,点用均匀矢量表示,其中 表示2D图像平面上的一个点, 表示3D空间中的一个点。 点按比例定义:对于任何非空标量, 和是等价的。这个关系用符号#39;#39;表示。
图1.经过整流的3D空间中的几束光线:穿过相机和相机 的光学中心的光线。射线与体素网格对齐,这简化了可见性计算。
在针孔相机模型[4]下,一个3D点和它在图像平面上的投影的关系为:
(1)
其中P是一个3times;4的矩阵,可以分解为
(2)
其中I是单位矩阵,R是相机旋转矩阵,c是光学中心,K是内部参数矩阵。 所有这些参数都假定已知。假设摄像机的光学中心位于平面网格上,也就是说,
(3)
其中是网格的中心,和是两个非共线向量,和是两个有符号整数。 经典的立体对是这样一个数组的特例。由于一对唯一标识了一个相机,我们用它来索引相机并用表示一组对。
所提出的整改包括旋转摄像机并使用单应性来转换欧几里德三维空间。整流的3D空间被定义为投影矩阵采取特殊形式的空间
(4)
因此,在整形空间中,3D点与它的二维投影 有关。在相机的图像平面上
(5)
从摄像机到摄像机的图像点的二维运动矢量等于基线 的倍。因此,经整流的三维空间的第三坐标是视差,而欧几里德空间的第三坐标是深度。
整数值点的投影也是一个整数。此外,通过光学中心的光线相互平行并落在整数值的3D点上,如图1所示,这简化了可视性计算。
3.2 纠正单应性
首先,我们需要从投影矩阵中恢复网格参数 和 。 从(3)可以得到方程组
(6)
在一般情况下,这个系统是过度约束的矢量通过最小均方获得。当相机共线时,其中一个矢量可以随意取任何值。在这种情况下,约束矢量用最小均方计算,并选择自由矢量来限制图像失真。为此,由叉积定义的法向矢量被设置为光轴上的单位矢量的平均值。然后通过Gram-Schmidt正交化推导出自由矢量。
我们定义一个由所有整流相机共享的固有参数矩阵
(7)
其中 是整流焦距。我们还将矩阵 定义为 和两个4D单应性矩阵 和 如下
(8)
(9)整流焦距 被选为实际相机的平均焦距 。(1)乘以 ,在 与 之间引入 ,并使用关系 ,我们得到
(10)
通过识别,我们得到了欧几里得和纠正量之间的关系
(11)
(12)
这是两种单应性矩阵。
(a) 原始图像 (b)整理图像
图2.从玩具序列中整理四幅图像[23]。 整顿后,图像的行和列都会对齐。
然后通过整修空间中的深度估计来重建欧几里德空间中的曲面,这是一个三步过程。 首先,通过应用单应性(11)来矫正图像。 然后通过匹配校正后的图像在整修空间中估计3D点。 最后,通过反转单应性(12)将这些3D点转移回欧几里德空间。 图2显示了矫正图像的一个例子。
4. 立体重建
4.1概述
我们现在转向立体声重建。 在本节中,我们假设图像已经被纠正,并且我们在校正的空间中放弃了数学符号的帽子。为了减少计算复杂度,阵列中的摄像机之间的依赖性使用其中每个摄像机 与图像 和视差图 相关联的MRF来建模,如图3所示。具体而言,每个值 表示沿着通过相机 中的像素 的光线的3D点的差异。在每个相机,像素之间的依赖关系也使用MRF建模。然后立体重建旨在从观察图像推断隐藏视差图,占用与可见性之间的关系,重构场景的唯一性以及马尔可夫先验性。
一个近似的解决方案是通过一个迭代过程获得的,其核心是经典的MAP-MRF推理[2,19,24],它们在每个相机上独立应用。每个推理的目的是解决形式的优化问题。
(13)
其中 表示2D像素的集合, 是标量权重, 是有利于分段平滑的团体潜力[19], 和 分别是光度测量和几何成本体积。
图3.相机MRF与2times;4相机阵列相关联。 每个节点代表具有观察图像I和隐藏视差图D的相机。边缘表示融合函数。
所提出的算法在推理和成本体积计算之间交替。 其新颖之处在于计算成本数量的一组融合函数。 由于在马尔可夫假设下,融合函数被定义在4邻域 上,即五个摄像机的十字形组,其通常包含丰富的深度信息但仅有限的局部遮挡。 所提出的算法的整体复杂度在数据大小上是线性的。
虽然局限,但部分遮挡倾向于在表面上的体素处产生较大的光度成本,这导致错误的差异。这些异常成本可以通过显式可见性建模来消除[3]。但是,可见性取决于表面几何,这引入了循环依赖。我们通过引入隐含的部分遮挡模型来解决这个问题,该模型不依赖于表面几何。对每个相机4邻域的四个配对派系进行稳健统计可以减少异常成本的影响。然而,经典的稳健统计不考虑相机的相对位置,并且可能无法沿着水平和垂直基线提取深度信息,从而导致具有差的判别能力的光度成本体积。因此,我们提出了一个强有力的措施,力求在每个体素中至少包含一个垂直和一个水平摄像机集合的光度测量成本。我们通过引入一个我们称之为“通过相邻邻居可视性”的假设来做到这一点:摄像机 可见的体素至少可以通过它的一个水平邻近摄像机和 以及至少一个垂直邻近相机 和。 这个假设通常是成立的,除了例如像栅栏栅栏或少于四个邻近的照相机那样的表面。在下文中,我们分别用上标和来表示与水平和垂直两两配对相关的量。
4.2 几何成本体积
几何成本体积有利于一致的视差图。为了计算它们,首先将差异图 转换成二进制占有体积 ,其体素在包含表面时取值为1。 除了初始化为体素 的一组体素之外,通过将其初始化为零来获得占有体积。由于所有占用体积都表示相同的曲面,因此它们在可见性和坐标系统变化之前应该是相同的。由于导致(5)的校正,将相机到相机的体积的坐标系统改为简单的整数3D剪切 ,如下
(14)
通过连接两个3D剪切获得两个任意相机之间的坐标系统的变化。让我们考虑相机并将其4邻居的占有量剪切到其坐标系。使用相邻邻居的可见性假设,错误的占用体素将被删除。
(15)
其中or;和and;分别表示“或”和“与”运算符。
然后计算几何成本体积
(16)
除此以外,其中 是阈值。
4.3 光度成本体积
光度计成本体积有利于跨图像具有相似强度的体素。它们基于截断的二次误差测量[13],其中我们引入异常值去除过程以从部分可见体素中丢弃误差。 异常值删除基于具有隐式部分的混合模型,该隐式部分不需要任何占用信息,以及明确的部分,该部分在占用信息变得可用时利用占用信息。 图4显示了合成示例中的遮挡模型,图5显示了其对视差图估计的影响。
显式模型依赖于占用和可见性之间的依赖关系。 由于整流三维空间的特性,可以使用沿着视差轴的简单递归从其关联的占用体积 计算二值可见性体积
(17)
其中 表示“非”运算符。递归通过将v设置为1来初始化。
全文共6248字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[16275],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。