英语原文共 9 页
摘要
图像拼接的目标是生成没有不自然感的看起来自然的拼接图像,其中的不自然可能源于摄像头的相对移动、光线变化及视觉失常。在本论文中,我们提出了一种新型的拼接方法,该方法利用完整的目标图像中的平滑拼接域,同时还考虑了所有的局部变换的变化。扭曲参数的计算是完全自动的,在计算过程中利用了局部单应性和全局相似性变换。其中,局部单应性和全局相似性变换都是在参考了目标图像的情况下计算的。我们通过将单应性线性化并将其缓慢地改变为全局相似性矩阵减轻了非重叠区域的透视畸变。这一方法可以很容易地泛化到多张图像上,并且能自动地取得全景图的最佳透视效果。由于该方法对参数的选择具有更好的健壮性,因此与当前最好的方法比起来更加自动化。我们通过一系列具有挑战性的案例展示了我们提出的方法的优越性。
引言
将图像对齐和拼接为无缝的照片拼接图的算法是计算机视觉中最老、使用最广泛的算法之一[11]。图像拼接的最高目标就是即使是在存在视差、镜头畸变、场景光线变化的情况下也能将图像的重叠部分无缝融合,生成看起来尽可能自然的拼接图。显然,在解释拼接图或全景图有多自然这一问题上,具有很大的主观性。而且,拼接技术同样应该能够很好地推测全景图中的那些只从单一图像获取信息的部分。
早期的拼接方法将注意力集中于取得全局2D变换矩阵来将一个图像与另一个对齐[11]。然而,采用单一的全局变换,如单应性矩阵,可能只在特定情况下有效,并且可能导致错误对齐和“鬼影效应”。大概地,2D图像拼接中的大部分问题的产生是因为不可能准确地估计拼接域。这是因为三维场景和相机参数的复杂影响,而他们都是难以获得的。然而,在图像对齐的过程中,可以对拼接域做出一定的假设[12,9,4,2],对视差的一定的容忍性也可以被利用。
我们提出了一种新的吸收了几种技术优点的方法来使全景图看起来更加自然。为了减轻在尽可能符合投影性拼接方法(APAP)[12]中发生的透视畸变,我们将不与任何区域重合的区域的单应性线性化。接下来我们使用重叠区域的匹配点的子集来自动估算全局相似性。最后,我们在重叠区域使用单应性和全局相似性来平滑地插值;类似地,在非重叠区域使用线性化的单应性(仿射)和全局相似性变换来估值。两个拼接域(单应性/线性化单应性和全局相似性)的平滑组合帮我们达到了:(a)没有弯曲产生的不自然的完全连续的平滑拼接域。(b)利用全局相似性增强的非重叠区域的透视性。(c)APAP提供的当前最好的精确对齐的全部好处。
相关工作
图像拼接中的基本概念和许多相关的变换的描述可以在[11]中获得。有些可以使用柱形和球形图像拼接算法的特殊案例也被讨论了。比如,柱形模型可以在已知相机绕其垂直轴水平旋转的情况下使用。利用此模型时,可以将视差错误最小化,但在不符合该假设的情况下,使用该模型会导致“鬼影效应”。计算单个全局单应性的简单扩展在[7]中介绍了,它将单个场景分割为远处平面和地面平面。权重图用于在目标图上平滑地组合两个单应性变换,但该方法限制于没有局部透视变换的场景下。
图一:我们提出的算法的示例。(a)原图,(b)应用带高斯权重的移动DLT算法后的扭曲,(c)使用线性化单应性和学生t权重的非重叠区域推断,(d)提出的整合了全局相似性变换的最终扭曲,和(e)最终的拼接图。
估算平滑拼接域的最早的算法之一是Lin et al. [9]中提出的平滑差异仿射(SVA)拼接方法。该算法中首先估算了全局相似性变换,然后利用该全局相似性变换使用EM风格的方程来组成一个平滑差异仿射(SVA)拼接域。它可以灵活地在处理视差地同时求取推测和闭环并处理参数变换的属性。尽管它可以很好地处理局部变换,但是它不能利用全局投影性。这一缺点可以通过[12]提出的APAP方法得到减轻,其中计算平滑差异投影拼接域,故而提供了额外的对齐准确性。有一种简单的移动直接线性变换(DLT)方法可以通过给更近的特征点更高的权值而给更远的特征点更低的权值来计算局部参数。
由于APAP在非重叠区域推测投影变换,它给距离边界较远的区域引入了严重的透视畸变。[4]的作者提出了保留形状的半投影(SPHP)扭曲来保留非重叠区域的形状。他们分析了沿着一个旋转坐标轴的投影变换并提出了一种方法来逐渐从投影行变换到相似性,就像我们从重叠区域到到非重叠区域的过程中的一样。这种拼接保证了形状的保留,但不能保证对视差的抵抗。尽管SPHP和APAP的组合被认为是目前最好的方法,但它对参数的选择十分敏感。而且,如果重叠区域有多个远方平面,从全局单应性产生一个单一的全局相似性变换可能并不够。这可能导致拼接图中的非预期的不自然的视觉效果。
Carroll et al. [3]提出了一种新型的方法来运用用户对平面区域、直线和相关的尽头点来对单幅图像的透视性进行操作。这一方法可以将图片综合到具有不同视角的图像中。Kopf et al.[8]提出了一种方法来获得更可靠的视觉效果图,该方法允许用户对全景图中的不自然的部分作标注并进行后续处理。然而,以上的方法都不能执行自动的保留透视的图像拼接。
提出的算法
我们将对我们提出的算法做一个详尽的展示。我们首先描述移动DLT算法来来估计局部单应性,接着提出一种方法来将局部单应性在非重叠区域线性化。然后再解释参考图和目标图之间的全局相似性的计算。由于可能有多种可能的相似性变换,我们自动地选择旋转角最小的相似性变换作为最优候选变换。最后,展示提出的扭曲的详情。这一扭曲是通过在整个图像上组合单应性或对应的线性化版本和全局相似性矩阵来构建的。
局部单应性模型
使用和来分别表示目标图和参考图。在和之间给定一对匹配点和,那么单应性变换可以表示为
(1)
(2)
在齐次坐标和中,它可以用单应性矩阵表示为缩放
(3)
单应性矩阵中的列H是由和表出的。在(3)的两边做叉乘操作,可以得到
(4)
该式可重写为如下形式
(5)
我们将式(5)中的 9 x 1向量记为 h.由于式(5)中的3 x 9矩阵中只有两行是线性无关的,对于匹配点的点集N中的点和我们可以使用下式来计算h
(6)
其中的对应于式(5)中矩阵的两行。由于单应性变换只有8个自由度,我们还附加了另一约束。
在[12]中,作者提出了通过在式(6)中引入局部增强的权重来计算局部单应性的移动DLT框架。位置的局部单应性是这样计算的
(7)
上式也可以被写作,其中。在[12]中,权重是使用高斯权重来生成的,其中对附近的像素给予更高的权值,对较远的像素给予更低的权值,比如。参数就是用来避免数值问题的偏移量。需要注意的是局部单应性只能在目标图像中与参考图重叠的部分计算。
对非重叠区域,每个像素的变换都是由重叠区域的局部单应性的带权重的线性组合计算得到。因此,为了避免推测失真,选择一个合适的偏移量变得十分重要。在图1(b)中,我们展示了这一问题,其中将gamma;设为了0,从而由于高斯权重的无向性导致了“波浪效应”。反之,选择一个合适的偏移量将形成一个好的结果。即使在这一案例中,非重叠区域的的透视畸变也与APAP相似,正如[4]中的一样。
在我们提出的方法中,我们使用在重叠区域使用不带偏移量的移动DLT算法来计算局部单应性,并使用单应性线性化来推算到非重叠区域,正如下一届中描述的那样。这样就减轻了透视畸变,而且我们提出的权重策略对于参数选择的依赖性更低。
单应性线性化
正如图1(b)中所示的,在非重叠区域的单应性变换推测产生了额外的不自然的缩放效应。该效应的原因可以通过考虑1维透视变换来理解。如果我们使用一组匹配点来计算参数{a,b,c,d},即便是对不可用的匹配点也这样,那么x和xrsquo;之间的关系就会是非线性的。这就转化为严重的2D透视畸变。但这一畸变可以通过变换线性化来最小化。
对于图片,锚点p附近的任意点q的单应性线性化可以通过泰勒序列单应性变换h(q)来考虑,其中h为
(8)
其中是点p的单应性h的雅可比变换。式(8)中的前两项给h(q)的线性化提供最优的线性化。因此,如果h是p的微分,不垂直,那么单应性的线性化就是一个仿射变换。然而,非重叠区域的任意点q的线性化的计算不像1维数据的情况那样直白。因为重叠区域和非重叠区域间的边界可能包含多个点,而且我们不能知道雅可比变换应该在哪里计算。因此,我们考虑边界中的锚点来计算线性化并计算变换的带权平均值。
对于带有可能的不同局部单应性的边界的锚点的集合R,线性化的带权组合为
(9)
我们将作为的函数,具体地,我们使用高斯权重或学生t权值。与高斯权重相比,学生t权重分布的尾部衰减得更加缓慢,因此更加稳定。因此当点q与锚点相距较远时,所有的锚点都具有相似的权重。但是,在选用高斯权重的情况下,尾部应该使用偏移量参数来平整化而避免“波浪效应”。
我们提出的推测方法的拼接结果展示在图1(c)中。使用线性化单应性来推测非重叠区域的结果的透视畸变比使用APAP的结果要小。这一结果与使用双单应性扭曲[7]相似。然而,我们的方法中不需要计算远平面和地面平面的两个单应性。我们的方法适用于更复杂的场景并且与双单应性相比起来更加一般化。这一方法不需要应该根据场景基础[12]来决定的参数,因此对于参数选择的依赖性更小。
全局相似性变换
在上一章节中,我们引入了一种方法来将单应性线性化,因此减少了重叠区域的透视畸变。在接下来的章节中。我们将提出方法来进一步减少畸变,因此将全景图看起来更加自然。核心思想是对目标图中的非重叠区域使用相似性变换,因此它不会引入任何透视畸变。
如果全局相似性变换与目标图和参考图之间的相机变换相似,那么计算得到的相似性变换可以用来补偿相机移动。然而,使用所有的匹配点来计算全局相似性可到导致不理想的拼接结果,在重叠区域包含远平面时,这一问题更加显著。在展示了SPHP拼接结果的图2中,这一问题尤为显然。需要注意到SPHP方法使用全局单应性变换来唯一地确定全局相似性,因此可能与相机运动不一致。
假定场景中有多个平面及一个在相机焦距上的投影平面,场景中的每一平面都与投影平面具有一定的交会角,且场景中的每一平面都与局部单应性变换相对应。对应于与投影平面最平行(交会角最小)的平面的单应性变换可用来产生代表相机运动的最理想的相似性变换。
图2:在Temple图像数据集上使用SPHP[4]得到的拼接结果
我们提出了一种在参考图和目标图之间生成理想的相似性变换的方法,该方法中我们将用如下方式来分割匹配点。在取得匹配的特征点后,我们首先使用阈值为的RANSAC[6]算法来剔除异常值。接着,我们使用阈值为的RANSAC算法来计算具有最大内窗值的平面的单应性。其中,并且将内窗值移除。重复该过程直到内窗值的数量小于eta;。每一组匹配点都用来计算一个单独的相似性变换。接着,与变换对应的旋转角被计算出来并选择具有最小的旋转角的那一组。
图3展示了分组结果的一个例子。图上的绿色和黄色的圆圈属于不同的两组匹配点。红圈不属于任何组。在本例中,黄点表示的组生成具有最小旋转角的理想全局相似性。
图3:用于计算理想全局相似性变换的分组特征点。
全局相似性变换的整合
当全局相似性变换被计算完成后,它将用于调整目标图的扭曲来减轻整个全景图中的透视畸变。如果我们只对非重叠区域调整变换,那么拼接结果将产生不自然的视觉效果。因此,我们使用下列公式将整个目标图的局部变换更新到全局相似性变换中:
(10)
其中,是第i个局部单应性,是更新后的局部变换,是全局相似性变换,和是加权系数。上标(t)表示目标图,上标(r)表示参考图。我们还约束,其中和在0和1之间。它们是这样计算的
(11)
其中k是扭曲的目标点在方向上的投影点。和分别是参考图和扭曲过的目标图上的中心点。和分别是使具有最小和最大值的点。其中是第i个位置在最终全景图中的位置。
(12)
利用全局相似性变换来更新目标图的扭曲导致原本对齐了的目标图与参考图的重叠区域变得不对齐。因此,我们需要通过合理地将目标图的改变传播到参考图中来补偿这一不对齐。现在,参考图的局部变换可以表示为
(13)
图1(d)展示了参考图和目标图的最终扭曲结果。图1(e)中展示的最终拼接结果清晰地重组了一幅自然的全景图。
图4:在寺庙图像数据集上的与当前最好的图像拼接方法的比较。
实验
我们在[12]提供的一系列数据集上引进了我们提出的方法的比较实验。比较的方法包括:微软图像复合编辑器(ICE)[1]、APAP[12]、带全局单应性的SPHP[4]、带APAP计算的局部单应性的SPHP(SPHP APAP)。实验中,我们使用了相应论文提出的相同参数集。我们使用论文作者提供的代码来获取用来比较的结果。匹配点是使用SIFT[10]来检测的。对于移动DLT方法,我们将sigma;设为12.5;对于学生t方法,我们将v设为5,对全局RANSAC错误函数,我们将阈值设为0.1,对局部RANSAC错误函数,我们将阈值固定为0.001.内窗口数目阈值固定为50。典型情况下,在2.7GHz CPU、16GB RAM的机器上需要使用20到30秒来拼接两个800x600分辨率的图像。为了保持论文的简洁,我们只附上了寺庙和铁轨数据集上的结果,其他的结果可以在补充材料中看到。
寺庙数据集的结果展示在图4中。每行对应一个不同方法的结果。结果的顺序为:ICE,APAP,SPHP,SPHP APAP和我们的方法。我们高亮了每个结果图中的两个区域。红色框展示了重叠区域中的视差错误,蓝色框展示了非重叠区域的透视错误。ICE的结果看起来很好,透视被保留了下来但是地面区
资料编号:[4336]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。