英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
原文:
出处:翻译节选自《Unsupervised Learning for Intrinsic Image Decomposition from a Single Image》
出版年份:2020
作者:Yunfei Liu、Yu Li、Shaodi You、Feng Lu
页码:3248-3252
译文:
摘要
本征图像分解是计算机视觉中的一项重要任务,其目的是推断场景的反射和阴影。这是一个挑战,因为它需要将一个图像分为两个部分。为了解决这个问题,传统的方法引入了各种先验知识来约束解,但是性能有限。同时,通常采用有监督学习的方法来解决这一问题,但这并不是一个理想的解决方案,因为对于大量的一般自然场景来说,获取地面真实反射和阴影是一个挑战,甚至是不可能的。本文提出了一种新的无监督本征图像分解框架,该框架既不依赖于标记的训练数据,也不依赖于手工构建的先验知识。相反,它直接从无监督和不相关的数据中学习反射和阴影的最新特征。为了实现这一点,我们研究了反射和着色之间的独立性、域不变的内容约束和物理约束。在合成和真实图像数据集上的扩展实验表明,提出的方法始终具有优越的性能
1.介绍
图1。我们的方法是在无监督的情况下学习本征图像分解,其中训练数据中没有地面真实反射率和阴影。我们从自然图像、反射率和阴影的未标记和不相关集合中学习分布先验。然后在独立性约束和物理一致性约束下,通过保留内容的图像翻译,对图像进行本征分解。
自然图像的外观取决于各种因素,如光照、形状和材质。图像分解的目的是将这样一幅自然图像分解为光照不变分量和光照变化分量。因此,它可以用于各种高级计算机视觉任务,如纹理编辑、人脸外观编辑等。在本文中,我们遵循的惯例是假设理想的朗伯曲面。然后,自然图像I可以分解为照明不变性,反射率R(I)和照明方差,阴影S(I)的像素级乘积,即
(1)
式(1)是不适定的,因为未知量是已知量的两倍。因此,传统的方法将物理先验作为额外的约束条件进行研究,而最近的研究倾向于使用深度中性网络来直接学习这些先验条件。
与高级视觉任务不同,本征图像分解显然是基于物理的,因此设计一种有监督的学习方法将在很大程度上依赖于高质量的物理真实背景。但是,现有的数据集要么是从一小部分手动绘制的对象、合成对象或场景或手动注释创建的。这些数据集要么太小,要么远离自然图像,因此限制了监督学习的性能。
最近,一些半监督和非监督学习方法被开发出来。Janner等人提出了一种基于少量标记训练数据的自监督本征图像分解方法,并将其转化为其他未标记数据。然而,还需要涉及许多其他有监督的信息,如物体的形状。Li等人和Ma等人处理未标记的图像序列,其中场景需要固定在序列内,并且只有照明和着色允许改变。这样设置仍然非常有限。
本文旨在探讨单图像无监督的本征图像分解。其核心思想是自然图像、反射率和明暗度具有相同的内容,反映了场景中目标物体的性质。因此,我们认为从自然图像中估计反射率和明暗度是在保留图像内容的同时传递图像样式。基于这样一种思想,我们实际上可以使用无监督学习方法来学习自然图像的风格、反射率和明暗度,每个集合收集三个未标记且不相关的样本。然后利用自动编码器和生成式对抗网络将自然图像转换成所需的样式,同时保留底层内容。我们的方法不同于单纯的从一个域到另一个域的无监督迁移方法,而是从一个域到另两个具有明确物理意义的域。因此,我们在提出的方法中明确采用了三个物理约束,即1)等式(1)中的物理一致约束,2)自然图像及其分解层共享相同对象、布局和几何体的区域不变约束,3) 反射是光照不变的,阴影是光照变化的与物理无关的约束。
严格的实验表明,在ShapeNet、MPI-Sintel基准、MIT内在数据集和IIW四个基准上,我们的方法可以与最先进的无监督方法相比产生更好的性能。我们的方法的性能与最先进的完全监督方法相当,甚至优于近年来出现的一些方法。
这项工作的贡献有三个方面:
bull;根据我们所知,我们提出了第一种基于物理的单图像无监督学习方法,用于本征图像分解。具体来说,我们采用了三种物理约束:物理一致性约束、域不变内容约束和反射着色无关性。
bull;我们提出并实现了一种完全无监督的学习网络结构,用于单个图像的本征分解。
bull;所提出的方法优于现有的无监督方法,并在不同的内在图像基准上显示出与完全监督方法相当的结果。
2.相关工作
基于优化的方法。本征图像分解是近五十年来研究的一个典型的图像层分离问题。为了处理不适定问题,采用了附加的先验知识和优化框架。例如,Land等人提出了一种开创性的Retinex算法,该算法将与反射率变化相对应的大图像梯度求和,而较小的梯度则与明暗处理相对应。随后,人们探索了许多用于本征图像分解的先验知识。受大图像梯度和分段常数特性的启发,在目标函数中采用反射率稀疏和低秩反射率作为正则化项。阴影处理也有许多限制条件,例如梯度域中的分布差异。最近,Chen等人利用近红外图像,提出了在对图像进行正则化分解之前先对其进行近红外处理的方法。虽然这些手工制作的先验值在小图像集中是合理的,但它们不太可能覆盖复杂的场景。此外,上述方法假设为朗伯材料,因此不能适用于具有一般非朗伯反射率的更复杂情况。
监督学习方法。近年来提出了许多基于监督学习的方法。这些方法试图用不同的网络结构来估计标记训练数据的反射率和阴影。然而,基于公开数据集的训练数据有明显的缺点:Sintel、ShapeNet和CGIntrinsics是高度综合的数据集,在它们上面训练的网络不能很好地推广到真实场景。麻省理工学院的内在数据集由真实的图像组成,但这些图像的数量太有限,因为它只包含20个具有地面真实性的对象。因此,这些有监督的方法如果在另一个数据集上训练,往往不能很好地推广到一个数据集上。最近,人类标记的数据集IIW和SAW只包含稀疏的注释。不仅如此,要大规模收集这样的注释是很困难的。
半监督和非监督学习方法。涉及Janner等人提出了一种自监督的本征图像分解方法,该方法依赖于少量有标记的训练数据,然后将其转化为其他无标记的数据。InverseRenderNet以一系列相关图像作为输入,将多视点立体视作为监督信号加入到内分解中。利用视频或图像序列,加上物理约束,无内在图像学习最近成为一个新兴的研究课题。现有的无监督三值图像分解方法主要是对场景固定、亮度变化的图像进行训练,训练后的模型可以用单输入进行测试。然而,在大多数情况下,用于训练的场景级真实图像仍然局限于各种场景。基于此,我们提出了一种替代的无监督方法,它不依赖于固定结构的图像序列进行训练。
图像到图像的转变。图像到图像的转变旨在学习两个图像域之间的映射。Pix2pix使用条件GAN学习mapping,CycleGAN,UNIT应用循环一致性来规范训练。最近,MUNIT和DRIT认为部分共享的潜在空间假设,并进行多模态图像到图像的转换。然而,无监督的图像到图像的转换与本征图像分解之间仍有很大的差距,因为1)图像到图像是完全统计驱动的,而本征图像分解是基于物理的;2)翻译后的图像可以是多种形式,而输入图像的本征图像是显式的。因此,图像到图像的转换方法不能直接适用于固有的图像分解。
3.无监督单输入本征图像分解
3.1. 问题表述和假设
单输入本征图像分解。首先,我们用精确的外延来描述任务。如图1和等式(1)所示,单图像内在分解的目标是将表示为I的自然图像分解为两层,即照明不变性,即反射率R(I);和照明方差,即阴影S(I)。
式(1)的“未知数”多于“已知数”,因此不能直接求解。提供足够数量的具有基本事实的数据样本,即三重样本,基于监督学习的方法也被探索。在前面的章节中,我们已经讨论了获得地面真相的困难。我们现在关注无监督学习。
无监督本征图像分解。在这一节中,我们定义了无监督的单图像本征图像分解(USI3D)问题。假设我们收集了未标记和不相关的样本,我们学习了每个样本的对应风格。比如说,我们可以通过提供一组未标记的反射图像来学习反射类型,即边缘分布:;我们通过提供一组未标记的着色图像来学习着色类型,即边缘分布:;我们还可以学习自然图像类型,即边缘分布,通过提供一组未标记的自然图像:。然后,我们从边缘分布推断的,。
图2。域间的内容保持翻译。I是自然图像的领域。S是阴影区域,R是反射区域。在我们的无监督学习方法中,我们学习了一组编码器,对每个域到域不变性的潜在空间C的外观进行编码。我们还学习了相应的编码器对外观到域依赖的反射()和着色()先验空间进行编码。稍后,图像样式可以从编码器(实心箭头)传输到生成器(虚线箭头)。
为了使任务易于处理,我们做了以下三个假设。
假设1。域不变内容。
在物理上,自然外观、反射和阴影都是给定对象的外观。如图2所示,我们假设这样的对象属性可以是潜在编码和共享量域。根据styletransfer术语,我们将这种共享属性称为content,表示为。同时,我们假设内容可以从所有三个域编码。
假设2。反射阴影独立性。
在物理上,反射率是对光照和方向的不变性,而明暗处理是方差。因此,要分解这两个分量,我们假设它们的条件先验是独立的,并且可以学习分开。作为如图2所示,我们将反射的潜在先验表示为,它可以从反射域和自然图像域编码。同样,我们定义了着色的潜在先验,。
假设3。潜码编码器是可逆的。
这一假设在图像翻译中得到了广泛的应用。具体地说,它假设一幅图像可以被编码成潜码,潜码可以同时被解码成图像。这允许我们在域之间传递样式和内容。特别是,这使我们能够将自然图像传输到反射和着色。
3.2. 实施
USI3D网络的详细实现如图3所示。
图3。提出了USI3D的体系结构,该方法采用无监督学习的方式对图像进行分解,将图像从自然图像域I转换到反射域R和阴影域S。
内容共享体系结构。与假设1一样,我们设计了内容共享体系结构。我们使用en编码器提取输入图像的内容码c,然后用c分别通过生成器和生成分解层和。接下来,我们使用,,提取的内容码和的内容码,分别。最后为了使内容编码器、和能够正常工作,我们采用了内容一致性丢失技术。具体来说,我们使用内容一致性来约束输入图像Ii及其预测和之间的内容编码。 (2)
其中|·|1是L1距离。
映射模块(M模块)。在假设2的前提下,反射率和明暗度的先验编码是域变量,相互独立。因为我们需要从中推断出先前的代码和,所以我们设计了映射模块(M模块),如图3所示。具体来说,我们首先提取自然图像的先验码,然后设计一个分解映射来推断先验码和。为了将约束在反射先验域中,我们使用Kllback-Leibler散度(KLD)和从中采样的其他真实先验。以类似的方式生成和约束。KLD loss的定义为 (3),其中先验码从M模中提取,其真实先验码z从其真实图像中提取。这里有两个优先领域和,所以总KLD损失是。
自动编码器。根据假设3,我们实现了三个自动编码器。图4的左侧示出了为自然图像流实现自动编码器的细节。反射和着色的自动编码器的实现方式与辅助材料中提供细节的方式类似。我们遵循最新的图像到图像的转换方法,使用双向重建约束,使得在图像→潜在代码→图像和潜在代码→图像→潜在代码方向上都能重建。具体内容如下:
图像重建丢失。对于从数据分布中采样的图像,我们可以在编码和解码后重建它。
(4)
先前代码重建丢失。给定一个在分解时从潜在分布中提取的先验码,我们应该能够在解码和编码后重建它。与式(3)适用于约束两个样本的分布不同,图像和重建图像的先验码的约束应该是相同的。这里我们使用表示。
(5)
为了使分解后的本征图像与目标域中的真实图像不可分割,我们采用GANs对生成图像的分布与目标数据的分布进行匹配。对抗性损失定义如下:
(6)
(7)
对抗性的全部损失是。 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[262605],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。