自动照片弹出外文翻译资料

 2022-11-29 15:38:58

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


自动照片弹出

德里克阿列克谢马蒂尔·赫伯特

卡内基梅隆大学

图1:我们的系统自动构造一个粗略的3D环境,从一个单一的图像学习几何统计模型一组训练图像的类。在卡耐基梅隆大学中心的照片显示在左边,和三个新的观点从一个自动生成的3D模型到它的右边。

摘要

本文提出了一种全自动的方法创建一个3D单一照片模型。该模型是由几个纹理映射平面广告牌,具有复杂的典型儿童弹出式图书插图。我们的主要见解是而不是试图恢复精确的几何形状,我们统计由场景中的方向定义的模型几何类。我们的算法标签的输入图像区域的粗分类:“地面”、“天空”和“垂直”。然后使用这些标签使用一组简单的“剪切和折叠”图像到一个弹出模型假设.由于问题的内在歧义和统计性质的方法,该算法是不预期在每一个图像上工作。然而,它表现出奇以及从典型的人的照片拍摄广泛的场景专辑.

铬类:1.3.7 [计算机图形学]:三元图形和现实主义色彩,阴影,阴影和纹理1.4.8 [图像处理和计算机视觉]:场景分析—曲面拟合;

关键词:基于图像的绘制,单视图重建,机器学习,图像分割

1引言

在基于图像的渲染领域的重大进展过去十年已经取得了商业化生产的虚拟模型从照片的现实。令人印象深刻的图像漫游现在可以在许多流行的电脑游戏中发现环境和虚拟现实旅行。然而,创造这样的环境仍然是一个复杂和耗时的过程,往往需要特殊设备,大量照片,说明书互动,或所有三。因此,它在很大程度上是留给专业人士,被广大市民忽视。我们相信,更多的人将享受的经验几乎走在自己的照片周围。大多数用户,然而,只是不愿意通过努力学习新的接口,并采取时间手动指定模型对于每一个场景。考虑全景照片马赛克的情况:调整照片的基础技术(手动或半自动)已经存在多年,但只有可用性全自动拼接工具真正推广了实践。在本文中,我们提出了一个用于创建虚拟漫游的方法这是完全自动的,只需要一个单一的照片作为输入。我们的方法类似于创建一个弹出的插图在儿童书中:图像被放置在地平面上然后被认为是垂直的区域自动“弹出”到垂直平面上。就像报纸上的流行音乐,我们由此产生的3D模型相当基础,缺少很多细节。尽管如此,大量的演练惊心动魄现实和提供一个有趣的“浏览体验”(图1)。目标应用程序的场景是,照片将处理,因为他们是从相机下载到电脑用可以使用3D浏览器浏览它们(我们使用一个简单的VRML播放器),选择他们喜欢的只是像自动照片拼接,我们的算法是不希望在每个图像上工作良好。有些结果是不正确的,而其他人可能只是无聊。这符合现代数字模式摄影-人们拍了很多照片,但只保留很少有“好的”。重要的是,用户只需要决定是否保留形象.

1.1相关工作

最普通的基于图像的渲染方法,如QuickTime VR [陈1995 ],[出光场和汉拉恩

[ 1996 ],和lumigraph Gortler等。1996)都需要一个巨大的数字的照片以及特殊设备。受欢迎的城市系统如FACcedil;ADE [德贝韦茨等人建模。1996 ]、【奇波拉等人。1999 ]和大大减少所需图像数量,不使用特殊设备(虽然相机必须校准),但以牺牲相当多的用户交互和特定领域的适用性。有几种方法能够执行用户引导建模单一的形象。[ Liebowitz等。1999;Criminisi等人。2000)报价最准确的(but also the most劳动密集型的方法,recovering在度量重建建筑场景by using of an射影几何约束哈特利和zisserman [ 2004 ] to计算机用户指定的点的三维出租of their投射了从地平面的距离。the user is also required to specify其他如广场constraints on the ground平面,a set of平行线”,“与正交性关系。大多数其他的方法forgo the goal of a度量重建,而不是聚焦我们生产perceptually pleasing近似。[张等。2001 ]模型的自由形式的场景中让用户位置约束,如正常的方向,可以在平面图像,然后三维模型优化for the best了这些限制。[齐格勒等。2003 ]发现最大体积的3D模型包括with多扳标记图像。电影[霍里塔into the等。1997年],主要灵感for this work,有场景模型as an轴对准信箱,走出剧场实习,以及地板,天花板,backdrop和两个侧平面。“蜘蛛网”界面直观的年allows the user to specify the coordinates of this box and itsvanishing点。前台objects are扳标记by theuser and assigned to their own平面。这种方法产生令人印象深刻的结果目标场景作品只有我们一点透视,额头和平面图像。这是一个严格的限制,但直观的界面。自动重建方法存在一定类型的场景。视频图像序列的多金(如[部长;2001年pollefeys。等。2004年]),目的,最好的我们的知识,自动单视图建模.

.2直觉考虑图1中的照片(左)。人类很容易掌握场景的整体结构-天空,地面,相对位置主要景点。此外,我们可以合理地想象什么这个场景看起来有点不同,即使我们从未去过那里。这真是一个惊人的能力考虑到几何上说,一个单一的2D图像给出上升到无限可能的三维解释!如何做我们这样做?答案是我们的自然世界,尽管它令人难以置信的丰富和复杂性,实际上是一个合理结构的地方。件固体物质通常不挂在半空中,而是表面的一部分通常是平滑变化的。有一个明确的概念定向(由重力提供)许多结构表现出高相似程度(如纹理)和同一类的对象往往有许多相似的特征(例如草通常是绿色的)最常被发现在地上)。所以,当图像提供无限多的几何解释,其中大部分可以被丢弃,因为他们是极不可能的了解我们的世界。这种知识,目前认为,是通过终身学习获得的,所以,在某种意义上,很多我们考虑人类视觉是基于统计而不是几何。本文的主要贡献之一在于摆出经典统计学习中的几何重构问题。而不是试图明确地提取所有所需的几何参数从一个单一的形象(一个艰巨的任务!),我们的做法是依靠其他图像(训练集)提供这些信息一种含蓄的方式,通过识别。然而,不像大多数场景识别方法,其目的是建模语义类,例如汽车、植被、道路、建筑物或[埃弗灵厄姆等人。1999;Konishi和尤尔2000;Singhal et al.。2003、我们的目标是模型依赖于物理对象的方向的几何类与场景有关。例如,一块胶合板躺在地上和同一块胶合板支撑着董事会有两个不同的几何类,但相同的语义类。我们产生一个统计模型的几何类一组标记的训练图像,并使用该模型合成3D给一张新照片的场景。

2概述

我们限制我们的范围来处理户外场景(自然和人造的)假设一个场景由一个单一的地面组成平面,分段平面物体在地面上的权利天使与天空。在此假设下,我们可以构造一个粗糙,缩放的3D模型从一个单一的图像分类像素为地面,垂直或天空,估计地平线位置。颜色,纹理,图像定位和几何特征都很有用确定这些标签的线索。我们产生许多潜在的有用的线索,尽可能让我们的机器学习算法(决策树)找出哪些使用和如何使用它们。这些线索(例如,RGB值)是相当简单的,可以直接计算从像素,但其他,如几何功能需要更多的空间支持是有用的。我们的方法是逐步建立我们的场景结构的知识,同时小心不要去做那些能阻止真实的假设新兴解决方案。图2说明了我们的方法。图像处理如果不了解场景的结构,我们只能计算简单的功能,如像素颜色和过滤器响应。第一一步是发现几乎均匀的区域,被称为“超像素”(图2(b))在图像中。对超像素的使用提高了效率在图像中寻找大型单标记区域的准确性。看到第4.1节详情。处理多个星座图像通常包含成百上千的超像素的颜色和纹理的分布可以计算。为了得到更复杂的功能,我们组超像素,我们称之为“星座”(图2(c)),可能有相同的标签(基于训练数据得到的估计)。这些星座跨越一个足够大的部分的图像,以允许所有潜在有用统计量的计算。理想情况下,每个星座将对应于场景中的物理对象,例如作为一棵树,一大片土地,或天空。我们不能保证,然而,一个星座将描述一个单一的物理对象甚至,所有的处理都会有相同的标签。由于这种不确定性,我们产生了几个重叠的可能星座(第4.2节),并使用所有设置,以帮助确定最后的标签。多星座超像素标签我们的系统最大的挑战是确定几何基于其特征计算的图像区域的标号外观。我们采取机器学习的方法,建模从一组训练图像的几何类的外观。对于每个星座,我们估计每个三的可能性可能的标签(“地”、“竖”、“天”)和信心所有星座中的超像素具有相同的标签。每个superpixel的标签,然后从似然推断包含超像素的星座(4.3节)。超像素标签的三维模型我们可以直接从几何构造一个场景的三维模型图像标签(第5节)。一旦我们找到了图像像素标签(地面,垂直或天空),我们可以估计的对象通过拟合底部边界与地面有关与地面垂直区域。地平线位置是估计从几何特征和地面标签。鉴于图像标签,估计的地平线,我们的单一接地平面假设,我们可以把所有的地面像素映射到那个平面上。我们假设垂直像素对应物理对象坚持地面和代表每个对象与小平面广告牌组。我们视天空为非固体,将其移除从我们的模型。最后,我们纹理映射到我们的模型图像(图2(e))。几何类的3个特性我们认为,颜色,纹理,位置的图像,形状和投影几何线索都是有用的确定几何图像区域的类(见完整列表的表1)。颜色在识别表面材料方面是有价值的。例如,天空通常是蓝色或白色,地面经常绿色(草)或棕色(污垢)。我们代表颜色使用两种颜色空间:RGB和HSV(套C1-C4表1)。RGB允许“蓝色”或“绿色”的区域可以很容易地提取,而HSV可以感知颜色的属性如颜色和“灰色”待测。纹理提供了关于表面材料的附加信息。例如,纹理有助于区分蓝天和水青草和绿叶。纹理表示使用面向高斯滤波器衍生物(套T1-T4)和12个最互不相同的通用基元(套t5-t7)从伯克利分割数据集[马丁等。2001 ]。在图像中的位置也提供了强有力的线索区分在地面之间(倾向于低的图像),垂直结构,和天空(往往是高的形象)。我们标准化的像素位置的宽度和高度的图像和计算的意思是(L1)和第十和第九十百分位(L2)的X和Y坐标图像中某区域的。此外,区域的形状(L4-L7)helpsdistinguish垂直区域(通常大约从地凸)天空区域(经常非凸和大)。三维几何特征有助于确定曲面的三维方向。知识的消失线的平面完全指定相对观众[ Hartley和Zisserman的三维定位2004,但这些信息不容易从中提取户外,相对非结构化图像。通过计算统计直线(G1-G2)和它们的交点(G3-G7)在图像,我们的系统获得的表面消失点的信息没有明确地计算它们。我们的系统发现长,直使用[ 2002 ] kosecka和张的方法在图像的边缘。近平行线的交点(在pi;/ 8弧度)径向分级,根据交点的方向从图像中心(8个方向)和距离图像中心(阈值1.5倍和图像大小的5倍)。这个纹理梯度也可以提供定向线索,即使是自然的无平行线曲面。我们捕捉纹理梯度信息通过比较一个地区的质量中心与中“texturedness”。我们还估计地平线位置的交叉点几乎平行线找到位置,最大限度地减少L一二—距离(选择其对离群值的鲁棒性)从所有的交叉口图像中的点。这往往提供了一个合理的估计人工图像中的地平线,因为这些场景包含许多平行于地平面的线(因此有货车)—加工点在地平线上的图像)。特征集G3相关相对于估计的星座区域的坐标地平,这往往比绝对图像坐标相关。4 the image标签许多有用的东西,只有当几何线索是。我们逐步建立我们的结构图像像素星座。我们有多套成11of the星座的星座,我们估计每个星座似然标记.4.1例子最初,一个简单的二维图像rgb像素。我们的第一步是从那些原始像素。小区域,接近一致h计算机视觉[图形researchers and Tao等。2001年和2003年任马利克;李;等。2004年)。计算improves superpixels the use of the让我们的算法效率稍复杂的统计。结构。我们的实现使用过分割技术胡滕洛赫尔。

4.2形成星座。接下来,我们集团s几何标签为“星座”。特别是,这些星座标记,我们多个像素的星座至少有一个会是正确的。标签,其特征矢量

4.4似然估计的数据)。星座时我们权衡宇宙飞船的支持看着在混合星座。

4.3几何分类

我们中的每个星座的几何h标签(标签是否似然)星座标签(均质似然)。我们估计似然函数的像素的标签4.4培训训练数据e似然函数和标签s星座集团的图像。我们在f我们的户外场景图像的标签集在线代表用户的选择高自然,郊区,and城市的场景。每个训练图像,我们提出一些和每个像素的地面真理标签根据几何课。3。相同的像素的标签t相同的标签和采样培训。从这个数据,我们估计的似然函数的对回归 [柯林斯等人。2002年]。每一个弱的学习者FM是基于密度的新特征

5创建三维模型

创建场景的3D模型,需要确定摄像头参数和每个垂直区域相交的地面。一旦确定这些,构建场景仅仅是一件事利用射影几何和纹理指定平面位置从图像映射到平面。

5.1切折我们构建了一个简单的三维模型,使“削减”和“折叠”基于几何标签的图像(见图4)。我们的模型由一个接地平面和平面物体的直角地面。即使这些假设和正确的标签,许多可能存在的3D场景解释。我们需要分区垂直区域成一组对象(特别是困难时对象区域重叠在图像中,并确定每个对象的位置接地(不可能当地面垂直边界在图像中受阻)。我们已经发现,定性,它最好是错过一个折叠或削减比使一个没有存在在真实的模型中。因此,在目前的实施,我们不试图分割重叠的垂直区域,放置褶皱和保守削减。作为一个预处理步骤,我们设置任何超像素被标记为地面或空中的和完全非接地或nonsky包围像素的相邻处理最常见的标签。在我们的测试中,这种影响不超过几个处理每幅图像但减少小标签错误(比较图2中的标签(D)及4(甲)。图5概述了切割和褶皱的确定过程几何标签。我们将垂直标记的像素分成使用连接的断开或松散

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25753],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。