英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
立体匹配的跨尺度成本聚合
张康,方玉强,民东波,孙立峰,杨士强,严水城,田齐
中国,北京,清华大学计算机科学系
新加坡,新加坡大学,国家电气和计算机工程系
美国,德克萨斯州,安东尼奥,德克萨斯大学计算机科学系
摘要
人类跨越多尺度进行立体对应。然而,这种生物灵感被最先进的成本聚合方法所忽略。在这里,本文提出了一种通用的跨尺度成本聚合框架,用于低成本聚合中的多尺度交互。我们首先将从一个统一的优化方面的成本聚集证明不同的成本聚合方法,尤其是在相似核的选择上本质是不同的。在此基础上,提出了一种跨尺度的正则化算法,并对其进行了优化和求解,模拟问题导致了该框架的提出。由于正则化项是相似核的独立项,因此可以将各种成本聚合方法集成到所提出的一般方法中。我们证明了框架—工作跨尺度框架的重要性,因为它有效并且高效地扩展了最先进的成本聚合方法,并在评估米德尔伯里、基蒂和新筑波数据集时导致了显著的改进。
1介绍
两幅图像之间的紧密对应是计算机视觉[12]中的一个关键问题,加上这两幅图像是同一场景的立体对的约束,密集对应问题就会退化。一种立体匹配算法一般分为四个步骤:代价计算、支持集、视差计算和视差细化[23 ]。在成本计算中,在所有可能的视差图中计算每个像素的匹配成本,生成一个三维成本卷(也称为视差空间图像[23])。在成本汇总中,成本是聚合的,在每个像素的支持区域上,执行分段的不均匀性。然后,每个像素的差异是用局部或全局优化方法计算和改进后两个步骤中的各种后处理方法。在这些步骤中,成本聚合的质量对立体声算法的成功与否有着重要的影响。它是最先进的本地算法的关键要素,一些性能最好的全局算法的主要构建块。因此,本文主要研究的是成本聚合。
图1。跨规模成本汇总。左上角:米德尔伯里[23]泰迪立体声对扫描线子段的放大视图;右上角:成本体积()在不同的成本计算后的尺度,采用强度 梯度成本函数,如[21,33,16]。水平轴x表示沿子段的不同像素,垂直轴L表示不同的显示。红色点表示以当前成本体积为基础的差异,而绿色点是基本真理;右下角:采用不同的成本增量方法后的成本量(自上而下:NL[33],ST[16],BF[36]和GF[21]);左下角:将不同方法集成到我们的跨规模成本聚合框架中的成本量,其中成本总量采用不同尺度进行聚集。(最好用颜色观看。)
大多数成本聚合方法可以看作是对成本总量的联合过滤[21]。实际上,即使是简单的线性图像滤波器,如盒或者高斯滤波器,也可以用于成本聚合。作为各向同性扩散滤波器,它们往往模糊深度边界[23]。因此,诸如双边滤波器[28]和引入了引导图像滤波器[7]用于成本综合。Yoon和Kweon[36]将双边过滤器应用到成本聚合中,从而在Midlebury数据库上生成了吸引人的差异图。然而,他们的方法是计算昂贵的,因为一个大的内核大小(例如35*35)通常是为了高视差而使用的,以解决计算限制双边滤波器,Rhemann等。[21]将制导图像滤波器引入到成本聚合中,其计算复杂性与核大小无关。最近,杨[33]提出了一个非局部成本聚合法,将核大小扩展到整个图像。通过计算图像图上的最小生成树,可以进行非局部成本聚合,非常快。梅等人遵循非局部成本聚合的思想,证明了通过实施视差一致性的美国分段树而不是mst可以获得更好的视差图。
所有这些最先进的成本聚合方法都为立体视觉做出了巨大贡献。这些方法的一个共同支柱是,成本是以投入的最佳规模进行汇总的。 然而,人类通常处理多尺度的立体对应[17,15,14]。根据[14],粗尺度和细比例尺的信息是相互作用的,在人体立体视觉系统的对应搜索中。因此,从这一生物灵感出发,合理的做法是,成本应该在多个尺度上进行汇总,而不是最好的规模。正如在传统方法中所做的那样(图1)。
本文提出了一个通用的跨规模成本聚合框架。首先,在文[18]中提出的图像滤波方法的启发下,提出了各种成本增益方法。一致化为加权最小二乘(WLS)优化问题。然后,从这个统一的优化角度出发,在WLS优化目标中加入一个广义Tikhonov正则化器,我们在相邻尺度之间,即规模间一致性上,加强了成本体积的一致性。具有规模间正则化的新的运算对象具有简洁性和易实现性。由于传统的成本聚合方法仍能保持成本规模内的一致性,因此可以将其中的许多方法集成到我们的框架中来生成。矿石成本体积大,差异图较好。图1显示了拟议框架的效果。四种具有代表性的成本聚合方法的成本划分,包括非成本聚合方法。CAL法[33](NL),节段树法[16](ST),双侧滤波法[36](BF)和引导滤波法[21](GF)。我们用红点表示产生的差异b,以表示地面真相差异。可以发现,更可靠的成本和更准确的差异是采用跨规模成本汇总法生产。在米德尔伯里[23]、基蒂[4]和新筑波[20]数据集上进行的扩展实验也表明,利用交叉技术可以获得更好的视差图总之,本文的贡献有三点:
从优化的角度,统一了各种成本聚合方法的WLS公式.
一种新颖有效的跨规模成本聚合框架。
三种数据集代表性成本聚合方法的定量评价。
本文的其余部分组织如下。在第2节中,我们总结了相关工作。用于模拟成本聚集的WLS是在第3节。我们的跨尺度正则化是DES 在第4节中被记录。然后在第5节中详细介绍了我们的框架的实现。最后,在第六节中给出了实验结果和分析,并给出了结论性意见。
2相关工作
最近的调查[9,29]对各种费用汇总方法作了充分的比较和分析。我们向读者推荐这些调查,以了解不同的成本汇总方法,对于涉及多尺度信息的立体匹配方法,研究较少,这些方法与我们的思想有很大的不同。
早期的立体视觉研究者采用了粗到细(CTF)的立体匹配策略[15]。首先对粗分辨率的视差进行了分配,并利用粗差来减小分辨率,用于计算更细视差的搜索空间。这种层次化策略已广泛应用于动态规划[30]、半全局匹配[25]等全局立体方法中。目的是加速收敛,避免意外的局部极小。不仅全球,而且当地的方法都采用CTF战略。非类全局立体声方法在局部立体方法中采用CTF策略的主要目的是减少搜索空间[35,11,10]或利用多尺度相关图像表示[26,27]。WH在本地CTF方法中有一个例外。MIN和Sohn[19]用各向异性扩散方法对成本聚集进行了建模,并利用多尺度AP有效地求解了所提出的变分模型。 普罗奇模型的动机是对与我们非常相似的成本体积进行去噪,但是我们的方法通过正则化来加强成本的规模一致性。
图2。利用一组输入成本体积,得到了跨尺度成本聚合的流程图:。相应的变量已经确定了。蓝色箭头表示规模内的连贯(通常用于常规的成本聚合),而绿色的破折号箭头表示规模间的一致性。(最好从颜色上看)。
总的来说,大多数CTF方法都有类似的特性。它们明确或隐含地模拟了尺度空间中的视差演化过程[27],即多尺度上的视差一致性。与以前的CTF方法不同,我们的方法模拟了在规模空间,即跨多尺度的成本体积一致性。从优化的角度看,CTF缩小了解决空间,而我们的方法不改变解决空间。但在优化目标中加入了规模间正则化。因此,将多尺度先验与正则化相结合是我们的创新之处。另一点值得一提的是局部CTF方法的性能并不比最先进的成本聚集方法[10,11]好,而我们的方法可以显著改进这些成本聚合方法[21,33,16]。
3 成本汇总作为优化
在本节中,我们展示了成本聚合可以拟合为加权最小二乘优化问题。在这种提法下,不同的相似选择优化目标中的内核[18]导致不同
费用汇总方法。
首先,成本计算步骤被定义为函数f,在这里W,H是输入图像的宽度和高度,3表示颜色通道和L表示差异级别的数量。因此,对于一个立体颜色可以由应用成本计算。我们可以得到成本,代表了每一个像素的匹配成本水平。例如i=(xi,yi),其中xi、yi为像素地点,它在差异级别L上的成本可以表示为标量,C(i;L)。各种方法可以用来计算成本。例如,强度 梯度成本职能[21、33、16]可拟订如下:
在这里I(i)表示象素i.颜色向量是x方向的灰度梯度。il是相应的i的像素与一个差异L。Alpha;平衡颜色和渐变项是截断值。
成本体积C通常非常嘈杂(图1)。受WLS公式的启发[18],成本集合可以用噪声来表示。输入c为:
定义了一个相邻的系统(i;j)相似性内核[18],它度量像素i和j之间的相似性,C是(去噪的)成本体积。解决方案是:
因此,像图像过滤器[18]一样,成本聚集方法对应相似内核的特定实例。例如,BF方法[36]采用了空间和两个像素之间的光度距离相似性,这与在双边过滤器[28]rhemann等人[21](GF)在引导过滤器中定义的内核[7],其计算复杂度与内核大小无关。NL方法[33]基于测地线距离定义内核在树结构中的两个像素之间。这种方法通过使用颜色片段进一步增强,称为分段树方法[16]。基于文件的[36,21]和基于树的[33,16]聚合方法之间的主要区别是相似性内核的操作范围。在基于文件的方法中,Ni是本地窗口以i为中心,但在基于树的方法中,是一个完整的形象。图1显示了不同行动范围的影响。基于文件的方法持有一些本地成本聚合后的相似性,而基于树的方法倾向于在不同区域之间产生硬。
在表明有代表性的成本汇总方法可以在统一的框架内制定之后,让我们重新检查图1中的成本卷切片。这个片段来自Middurbury数据集中的Teddy立体声对[24],包括三个典型场景:低纹理、高纹理
靠近无文本区域(从左到右)。四成本聚合方法都非常有效在高纹理区域,但是它们中的大多数都失败了。因为高度屈服在那些低纹理和无纹理的区域中进行精确的对应,对应搜索应该在粗尺度上进行。然而,根据等式(3)的表述,成本总是在规模最小,无法适应地利用多个规模的信息。因此,我们需要从尺度空间重新制定WLS优化目标。
4跨规模费用汇总框架
直接使用等式(3)来处理多尺度的成本量是等价的,这是很简单的。在每个级别分别执行成本聚合。首先,我们添加一个上标s到C,表示在一个立体声对的不同尺度上的成本体积,如CS。c0表示以最低的成本。多规模的成本量cs的计算使用向下采样的图像与一个系数。请注意,这种方法还减少了搜索差异的范围。方程(3)的多尺度版本易于导出:
在这里,Nis是相邻像素的集合斯氏天平。在我们的工作中,Nis的大小所有的尺度都一样,这意味着在更粗的尺度上执行更多的平滑。我们用向量组件,表示每个比例尺的合计成本。联合王国方程(5)的解是通过在每个尺度上独立地进行成本聚合得到的:
以前的CTF方法通常会减少差异使用视差地图搜索当前规模的空间根据较大规模的成本估算,经常引发小差异细节的丢失。或者,
我们直接执行成本的尺度一致性通过增加一个广义的Tikhonov调节剂,从而实现以下优化目标:
在这里,图形是一个常数参数来控制正规化。此外,相似的是,矢量组件表示每个级别的成本。上述优化问题是凸的。因此,我们可以找到优化目标的静止点来得到解决方案。表示方程(7)中的优化目标。相对于ZS的衍生物是:
对于s=0和s=S很容易得到类似的方程。因此,我们总共有S 1线性方程。
矩阵a是一个(S 1)times;(S 1)三对角线常数矩阵,可以很容易地从方程推导出来。自A是三对角线,它的倒数总是存在的。因此,
通过对不同规模的成本汇总结果进行适应性组合,得出最终成本量。这种适应性的组合使得在优化。
最后,我们用一个例子来说明图3中的规模间正规化的影响。在这个例子中,没有跨规模的成本集合,有类似的本地最低限度在成本向量中,产生错误的差异。来自最佳尺度的信息是不够的,但是当尺度之间采用正则化方法,从粗标度改变了成本向量,使差距缩小为了真相。
5执行情况和复杂性
建立不同规模的成本(图2),我们需要提取不同比例的立体图像对。我们选择了高斯金字塔,它是尺度空间理论中的一种经典表述。高斯金字塔是通过连续平滑得到的再进行次采样。这种表示的一个优点是,图像大小会随着规模增加,从而降低计算成本以指数表示的成本聚集。
图3规模内正规化的影响。在右边,我们设想一个单一的三个成本向量(一个是粗略的)像素(像素位置(295;49))的泰迪立体声对。蓝线表示用NL[33]方法计算的成本向量。绿色行是跨规模成本聚合后的成本向量(S NL)。青色线是4中NL的成本矢量(S=3)规模,内插的规模与最小规模成本相等录像机。红十字会是最小的成本地点每个成本向量和垂直破折线表示地面左侧,图像和视差贴片居中在这个像素上显示。(最好看颜色)
跨规模成本汇总的基本工作流程在算法1中,我们可以利用
步骤3中的费用汇总方法。与传统的成本聚集方法相比,该算法的计算复杂度只增加了一个小的常数。具体来说,让我们来表示计算复杂度。传统的成本聚合方法为O(mW H L),m与不同的成本聚合方法不同。在s上的像素和视差的数量是有区别的。因此,计算复杂度
与常规相比,步骤3最多增加了1 /7。成本汇总方法,如下所述:
步骤4涉及矩阵A的反转,其大小为(S 1)times;(S 1),但一个是空间不变的矩阵,每行最多包含三个非零元素,因此,它的逆可以预先计算。另外,在方程(11),在规模最好的成本量,用于生成最终视差图,只需要少量的额外计算负荷。在下一节中,我们将更详细地分析我们的方法的运行时效率.<!--
全文共13647字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14634],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。