英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料
基于单眼自然图像的贝叶斯深分析
Che-Chun Su, Student Member, IEEE, Lawrence K. Cormack,
and Alan C. Bovik, Fellow, IEEE
摘要
我们从一个单一的单眼自然图像来考虑评估密集的景深图的问题。 在人类视觉系统(HVS)的视觉信号处理的心理证据的启发下,我们提出了一个贝叶斯框架,通过利用可靠和稳定的自然图像和景深图的自然风光统计(NSS)模型来恢复详细的3D场景的结构。 具体来说,我们利用局部的图像特征和内在的自然图像深度变化之间的统计关系。 通过在自然图像中观察到类似的深度的结构可以存在于不同类型的亮度纹理区域,我们建立的标准深度模式作为现有的字典,并适合多元高斯混合物(MGM)模型来使局部图像特征的不同深度的图案相关联作为可能性。 与国家的最先进的深度估计方法相比,在逐像素的深度估计误差项上我们实现了更好的性能,但更好的恢复不同的对象和区域在自然的图像之间的相对遥远的关系的能力。
Che-Chun Su and Alan C. Bovik are with the Department of Electrical and Computer Engineering, The University of Texas at Austin, Austin, TX 78712, USA.
E-mail: ccsu@utexas.edu; bovik@ece.utexas.edu
1、简介
随着3D电影和娱乐的快速发展和相关设备的广泛普及,了解深度信息和2D图像数据在自然图像和视频中如何交互在这几年已经越来越重要。 特别是,回收单一单眼图像的场景的三维结构已被视为在图像/视频处理和计算机视觉的学科的一个根本问题。 更准确的深度估计的结果,更好地理解在自然图像中的对象之间的几何关系,这将是对各种图像/视频和视觉应用,例如,机器人技术,监视,场景理解,感知质量等有利的。
通过无缝结合两种双眼和单眼线索,人类能够感知的深度和3D视觉空间的几何形状重建很快速、轻松,个别人会感到困难和不适应。 即使任一给定的单一颜色的图像或一只眼睛闭合时,人类视觉系统仍能获得的天然环境和不同的物体之间的相对遥远关系的精确的深度结构。 然而,对于计算机程序和机器人技术,从一个单一的单眼图像估计范围(自我中心距离)一直被称为一个非常困难的问题,通常通过使用公认的深度线索,例如,颜色,纹理,透视等的组合。
在三维场景重建的大部分工作集中于双眼视觉,即立体感。 在 [1]中,Scharstein和Szeliski提供了一个彻底的审查和密集的两帧立体算法总结。 许多其他的深度回收算法需要的多个图像,包括从运动信息中恢复三维场景结构[2]和散焦测距[3]。 这些算法只考虑几何/三角的差异,同时也有各种包含有用的深度信息的单眼线索。
最近,已经有许多不同的方法和算法被开发用来处理单一的单眼图像处理深度估计的问题。实例包括从明暗恢复形状[4],[5]和纹理形状[6],[7]; 然而,很难将这些算法应用到表面不均匀的纹理和变化的亮度下的单眼图像处理深度估计的问题。 Nagai等人[8]采用隐马尔可夫模型(HMM)重构已知的固定物体,如手的表面,单个图像的人脸。[9]中,提出了由Hassner等人的例子为基础的方法,来估算给定的一些已知的分类类别的对象的深度。
其中之一的第一个方法,利用单眼图像特征, 由Hoiem等人提出[10],重构一个简单的室外场景三维模型通过假设把图像可以分为几个二维表面,并且像素可以分为有限的标识,例如,地面,天空和垂直壁。Delage 等人[11]开发了一种动态贝叶斯网络在室内场景重建的墙壁,天花板和地板的位置通过找到最可能的地板壁面边界。 在[12],[13],一种有监督的学习策略方法由Saxena先生等人设计,来推断在单眼图像的每个像素的绝对深度。 他们认为最3D场景是由许多小的,大致平整的表面,并使用马尔可夫随机场(MRF)建模来模拟两个单眼深度线索,例如,图片纹理变化和梯度,以及图片不同的部分之间的关系。 在[14],托拉尔瓦和Olivia研究图像的傅立叶频谱和其平均深度之间的关系。具体地讲,他们提出了概率模型来估计自然图象绝对平均深度,利用全球和本地的光谱特征的场景。 在[15] Liu等人在三维重建过程中加入语义标签,并实现在一个场景中的每个像素的深度较好的估计。 通过调节不同的语义标签,他们能够更好将绝对深度建模为局部像素外观的功能。
近日,蝎等人[16]提出的一种优化框架来生成最相似的深度图,由第一个匹配的高层次的图像特征从数据库选出候选人,然后用空间规则约束来扭曲这些候选人深度图。
自然场景统计(NSS)已被证明能够提供丰富的和有用的资源,对于理解到人类的视觉系统(HVS)的发展[17],[18]和解决不同的图像/视频和视觉问题[19] - [22]。 此外,也有进行开拓3D NSS和他们的应用程序的工作。 例如,Potetz等人[23]检测了在多个尺度上亮度和范围之间的关系,并将其结果应用于SFS问题。Yang等人[24]探索在小波域下的亮度和视差之间的统计关系,并且应用衍生模型的贝叶斯立体声算法。在[25],苏等人提出可靠的统计模型,用边际和条件分布的亮度/色度和不同的自然图像的作为统计模型,并用这些模型来显著提高彩色贝叶斯立体算法。 近日,苏等人开发新的双变量和相关NSS模型,可以很好的捕捉在自然的图像和深度图之间空间上相邻的带通响应的高阶依赖性 [26],[27]。 在 [28]中,作者进一步利用这些强大的模型,提出对立体图像的一个通用的质量评估框架,具有卓越的性能和最先进的算法。
在这项工作中,在HVS视觉信号处理的心理物理学证据的启发下,我们提出了一个贝叶斯框架,通过利用自然图像和深度图的可靠和稳定的NSS模型来估算单一单眼图像深度 [26],[27] 。所提出的贝叶斯框架训练和测试在准确匹配的自然图象和距离数据数据库,数据库为LIVE3D 色彩数据库 - 版本2[29],它包含99个1920times;1080的高清分辨率的双自然图像和地面实况深度图。
图1 对于深度估计所提出的贝叶斯框架的框图
本文的其余部分安排如下:第2节描述所提出的贝叶斯框架的细节,其中包括现有和似然模型。实验结果列于第3节,随后的结论在第4节。
2、提出的贝叶斯框架
图1显示了提出的用于单眼自然图像的深度估计的贝叶斯框架的框图。 该框架分为两部分,训练和测试。对于训练的一部分,我们首先收集自然图像和相应的地面实况深度贴图块32times;32的尺寸,然后对每个图块对提取自然场景的统计功能。 其次,探索自然图像嵌入的深度信息,我们从这些可感知图片和深度特征了解到先验和可能性。对于测试的一部分,输入图像被划分为32times;32重叠的块,并从每个图像块萃取相同的特征集。相应的深度块用先验和似然贝叶斯模型来估计每个图像块。最后,所有的深度块缝合在一起形成所估计的深度图。所提出的贝叶斯框架的每个组件的细节在以下小节中说明。
2.1 感知分解
人类视觉系统(HVS)通过对视觉刺激不同层次的分解和翻译来提取自然环境的丰富信息。通过模拟HVS如何处理自然图像和深度信息,各种统计模型已经被提出来以适合亮度/色度和深度/视差自然场景的带通响应[24] ,[25],[30]。 在这项工作中,因为我们要学习和利用自然图像的深度感知的统计数据,我们在自然图像的亮度上应用一定的感知相关的预处理步骤,并从单变量和二变量的实证的响应分布中提取深度感知特征。
我们通过将原始的彩色图像转化为感知相关的CIELAB颜色空间,即优化量化的感知颜色差异使它比感知不均匀RGB空间更好对应于人类色彩感知,来获得亮度[31]。每个亮度图像(L *)由可操纵金字塔分解,这是一种完备的小波变换,允许增加取向选择性转化[32]。小波变换的使用是由于它的空间尺度取向分解类似于发生在初级视觉皮层的区域V1的带通滤波 [33], [34]。 具体而言,在提出的贝叶斯框架的实现下,我们利用可控金字塔分解五个尺度,从1(最好)到5(粗糙),和十二个频率调谐的方向索引: 0, , . . . , .
施加多尺度、多方向分解后,我们在所有子带的亮度小波系数上执行了分裂标准化的视觉重要系数的过程 [35]。 分裂正常化,即,感官增益控制,在心理物理学文献中提出作为人类感知的神经元的非线性行为[36]。该分裂规范化变换(DNT)在我们的工作中使用的实现如下 [37]:
(1)
这里的 (,) 是空间坐标, 是小波系数, 是DNT后系数, s 是一个半饱和常数, j是加权和的邻域像素, 是一个有限的高斯加权函数。
在接下来的小节中,我们解释了从分裂归一化的子带响应中提取图像和深度特征,来预先进行深度估计学习。
2.2 图像特征提取
人们已经知道,有天然存在于场景亮度强度和深度信息之间的统计关系[30], 并且已经提出了以适合亮度/色度和视差的带通响应的各种单变量统计模型[24], [25]. 最近,新的双变量和相关统计模型已经被开发来捕获自然图像相邻子波段之间的反应空间的依赖关系[27]. 在所提出的贝叶斯框架内,我们利用这些自然场景统计特征来学习投影图像的亮度和在自然环境中嵌入的深度信息之间的关系。
2.2.1单因素NSS特征
大量的工作被用来自然图像建模,通过使用尺度、 多方向的转换,例如,Gabor 滤波器小波等 [18], [38]。在这里我们使用单变量广义高斯分布(GGD) 来适应每个图像块的亮度子带响应的实证直方图, 即, 公式 (1)中的 u。 单变量GGD的零均值的概率密度函数是:
(2)
其中 Gamma;(·) 是普通的伽马函数,alpha;u 和 beta;u 分别是尺度和形参。 这两GGD 参数是从每个子带的尺度和形状得到的,被包含在每个图像块的特征值里。
2.2.2 二元NSS特征
除了在自然亮度的单变量统计,我们进一步利用空间相邻的带通图像响应之间存在较高阶依赖的特性。具体来说,我们检查水平相邻子带响应,,即在一个图像块中选出位于 (x,y) 和 (x 1,y)的子带响应。 来模拟这些实证的联合直方图,我们利用了多变量广义的高斯分布 (MGGD),其中包括多元高斯和拉普拉斯分布作为特殊情况。一个多变量的广义高斯分布的概率密度函数定义为:
(3)
当 x isin; RN, M 是一个 N times;N 的对称散射矩阵, alpha;b 和 beta;b 分别是比例和形参, galpha;b,beta;b(·) 是密度产生器:
(4)
其中 y isin; R . 注意当 beta;b = 0.5, 公式 (3) 就是多元的拉普拉斯分布, 当 beta;b = 1, 公式 (3) 对应于多元高斯分布。 而且, 当 beta;b → infin;, MGGD 收敛到多元的均匀分布。在我们实施中,我们模拟得到在公式(3)中N = 2时每个使用二元广义的高斯分布的图像块的水平相邻的子带系数的二变量的实证直方图. BGGD的参数可以在使用了[26]中描述的最大似然估计值(MLE)算法的图像块的带通系数中得到。在图像块的特征集中,我们引入比例和形状参数,alpha;b 和 beta;b。
2.2.3 相关NSS特征
除了单变量和双变量GGD模型拟合在自然图像的子带系数的经验分布,存在尚未利用空间相邻带通亮度响应之间的高阶依赖性。特别是,我们已经发现,空间上相邻的带通响应之间的相关系数具有强方向依赖性[27]。例如, 水平相邻的带通响应在分波段调谐取向对齐在 处最具有相关性, 并在 0 (rad) 和 pi;处最不相关。说明在空间和子波段调谐取向的相对取向上具有周期性。空间相邻子带响应之间相关系数的相对取向规则提供了有用线索来区分具有不同的几何结构的图像,例如深度的不连续性、 光滑的表面等。
我们已经发现,空间上相邻的子带响应之间的相关系数的周期性相对取向依赖性可以很好地建模为由下式给出一个取幂正弦函数:
(5)
这里 y是空间相邻的带通响应之间的相关系数, lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[29539],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。