英语原文共 9 页
结合马尔可夫随机场和卷积神经网络进行图像合成
Chuan Li Johannes Gutenberg
University Mainz, Germany chuli@uni-mainz.de
Michael Wand Johannes Gutenberg
University Mainz, Germany wandm@uni-mainz.de
摘要
本文研究了生成马尔可夫随机场(MRF)模型和经过区别训练的深度卷积神经网络(dCNN)的组合,用于合成2D图像。 生成MRF作用于更高级别的dCNN特征金字塔,以抽象级别控制图像布局。 我们将该方法应用于摄影和非照片拟真(艺术作品)合成任务。 MRF正则化器可防止过激现象并减少先前dCNN反演方法常见的难以置信的特征混合,从而允许合成具有增加的视觉合理性的照相内容。 与基于标准MRF的纹理合成不同,组合系统可以匹配和调整具有相当大变化的局部特征,产生远远超出经典生成MRF方法的结果。
- 简介
通过示例合成内容的问题是计算机视觉和图形中的经典问题。它对许多应用都具有根本的重要性,包括创造性工具,如高级互动照片编辑[2,3,13],以及科学应用,如在心理物理实验中产生刺激[9]。在本文中,我们特别考虑了数据驱动的图像合成问题:给定一个示例图像,我们希望完全自动创建看起来相似但结构不同的示例图像的另一种方法。预期的偏差由用户提供的附加约束控制,范围从仅改变图像尺寸到详细的布局规范。具体地说,我们通过将输入分成“样式”图像和“内容”图像来实现这一点[9,13]。第一个描述应该构成图像的构建块,第二个约束它们的布局。图1显示了样式传输图像的示例,其中左侧显示了输入图像,我们的结果显示在右侧。请注意,我们的方法可以为艺术照片和光电传输提供合理的结果。特别地,在合成图像中有意地重复使用样式图像中的结构,例如嘴和眼睛。
生成图像建模的经典数据驱动方法基于马尔可夫随机场(MRF):我们假设图像中最相关的统计依赖性存在于局部水平,并通过考虑学习局部图像块的可能性分布示例图像中的所有局部ktimes;k个像素块。通常,这是使用简单的最近邻居方法[7]来完成的,并且通过近似MRF推断[6,15,16]或贪婪近似[3,7,13,26]来执行推断。 MRF纹理合成的一个关键限制是难以从示例数据中学习似是而非的图像块的分布。甚至局部ktimes;k图像块的空间(通常:kasymp;5... 31)已经过于高维,无法用简单采样和最近邻估计来覆盖。结果是不匹配的局部片段,随后将其拼接[16]或混合[15],以最小化缺乏概括能力的感知影响。缺少的成分是用来插入和从非常稀疏的示例补丁集中提取图像。
在不变性和概括能力方面,经过区别训练的深度卷积神经网络最近产生了巨大的影响[14,24]。他们能够识别复杂的图像特征类别,建模非线性变形和外观变化,远远超出简单最近邻搜索的能力。
然而,辨别设计提出了一个问题:相应的dCNN在多个汇集层上逐渐压缩图像信息到非常粗略的表示,其以半分布(非空间定位)方式表示语义上相关的特征描述符(图2)。虽然可以定义逆过程[4,5,8,9,10,20,28,29],但它难以控制:例如,简单地最大化网络的类激励会导致幻觉模式[21] 。除此之外,我们需要在合成图像中重现神经编码的正确统计。
了解决这个问题,Gatys等人[8,9]最近证明了将样式转换为引导“内容”图像的显着效果:他们的方法使用VGG网络的过滤金字塔[24]作为图像的高级表示,通过在数百万张照片上训练dCNN获得的丰富知识带来的好处。然后,通过惩罚新合成图像的高级神经编码与内容图像的高级神经编码的差异来简单地控制特征布局。此外,通过匹配由Gram矩阵捕获的各种过滤器通道上的相关性,匹配“样式”图像和新合成图像的特征统计,使该过程正规化。将绘画的艺术风格应用于照片,方法产生了非常令人印象深刻的结果[8]。然而,严格的地方合理性仍然很困难。特别是,使用照片作为样式并不具有可信的结果,因为在不同的层上捕获了多个像素特征相关性,并且空间布局受到太弱的约束。
我们的论文通过用MRF正则化器替换Gram-matrix-matching的类似特征的统计数据来增强他们的框架,MRF正则化器保持“样式”范例的局部模式:MRF和dCNN是规范组合 ——这两个模型都依赖于假设局部相关信息和平移不变性。 这使得dCNN中的特征编码具有近似的马克可夫一致性属性:局部补丁具有特征激活的特征性排列来描述对象,并且高级编码在类别变化中变得更多(图2)。 因此,在更高水平的网络(19层VGG网络的relu3_1和relu4_1)上使用生成MRF模型。 根据更抽象的类别,这规定了对象的合理局部布局,并且重要的是,尝试确保对更高级别的特征进行编码。 然后通过反演[d],通过dCNN的较低水平进行对象分类和可信混合的实际任务。
从技术上讲,我们通过额外的能量项来实现额外的MRF,该能量项模拟dCNN特征金字塔上层的马尔可夫一致性。 然后,我们利用Kwatra等人的EM算法[15]进行MRF优化:它可以轻松地集成到变分框架中。 此外,我们将证明更高水平的神经元编码在感知上更线性,这与M步骤的线性混合方法很好地匹配。
我们将我们的方法应用于许多照片般逼真和非照片般逼真的图像合成任务,并表明它能够超越经典MRF的可能性来概括图像。 在风格转移场景中,组合方法还有利于dCNN的能力自动匹配语义相关的图像部分,而无需用户注释。 与先前的反转dCNN的方法相比,MRF先验改善了特征布局的局部可信度,避免了幻觉伪影,并且通常提供比Gatys等人的统计方法更合理的介观结构。[8]特别是,我们可以大大提高合成照片的合理性,这是以前的方法无法实现的。
Eg: 注意图2中的层relu5_1显示了单个像素的最具辨别力的编码。 然而,在实践中我们发现在层relu4_1上使用3times;3贴片产生最佳的合成结果。 直观地,使用稍低层的贴片具有相似的匹配性能,但允许重叠的MRF和合成中增加的细节。
- 相关工作
基于神经网络的图像合成:dCNN在判别任务中的成功[23]也引起了人们对生成变异的兴趣。 Zeiler等人。 [29]引入了一个反卷积网络,将神经元激活反投影到像素。 同样,Mahendran和Vedaldi [20]从中间层的神经编码中重建图像。 上面详述的Gatys等[8]的工作也可用于非制导设置[9],优于仅使用线性特征库且没有统计先验的传统参数纹理合成[22]。
另一种方法是生成对抗网络的框架[11]。 在这里,两个网络,一个作为鉴别器,另一个作为发生器迭代地改进彼此通过最小最大游戏。 最后,与基本的图像合成相比,发生器能够产生更自然的图像。 然而,在人类中,输出质量仍然相当有限。 Gauthier等。 [10]用拉普拉斯金字塔扩展这个模型。 这导致输出质量的明显改善。 尽管如此,对大图像的训练仍然很昂贵,结果往往仍缺乏结构。 Denton等人。 [4]将模型扩展到条件设置,仅限于生成面。 也可以为特定的生成任务重新训练网络,例如图像deblur [28],超分辨率[5]和类视觉化[19]。
基于MRF的图像合成:MRF是非参数图像合成的经典框架[7]。正如在介绍中所解释的,一个关键问题是使局部补丁适应简单拼接[16]或混合[15],我们的论文侧重于这个问题。另一方面,MRF模型受到第二个显着限制:局部图像统计通常不足以在全球范围内捕获复杂的图像布局。虽然局部细节似乎看似合理,但全球布局通常仅仅类似于非结构化的“纹理汤”。多分辨率合成[13,15,26]在这里提供了一些改进(我们也在我们的方法中对其进行了调整),但原则解决方案需要额外的高级约束。这些可以由用户[2,3,6,8,13,17,27]明确提供,或者从非本地图像统计学中学习[12,18,30]。远程相关性也可以通过空间LTSM神经网络建模;迄今为止的结果仍局限于半规则纹理[25]。我们的论文通过“内容”图像选择显式布局约束的第一个更简单的解决方案[8,13] - 原则上,全局布局约束的学习大多与我们的方法正交。
- 模型
我们现在讨论用于图像合成的组合MRF和dCNN模型。 我们假设给出了一个样式图像,用xsisin;Rwstimes;hs表示,内容图像用xcisin;Rwctimes;hc作为指导。(未知)合成图像用xisin;Rwctimes;hc表示。 我们通过使x的高级神经编码类似于xc,但使用类似于xs的局部补丁,将xs的样式转换为xc的布局。 后者是MRF之前保持样式的编码。 形式上,x最小化以下能量函数:
Es表示样式损失函数(MRF约束),其中Phi;(x)是来自网络中某个层的x的特征映射。 Ec是内容损失函数。它计算合成图像的特征图与内容引导图像xc的特征图之间的平方距离。 如[8,20]所示,最小化Ec会生成与上下文相关的图像。 附加的正则化器Y(x)是重建之前的平滑度。 接下来,我们将详细说明如何定义这些术语。
MRFs损失函数:设Psi;(Phi;(x))表示从Phi;(x)中提取的所有局部片的列表 - 一组特定的像素图。 每个“神经片”是指数Psi;i(Phi;(x))并且大小为ktimes;ktimes;C,其中k是贴片的宽度和高度,C是从中提取贴片的层的通道数。 我们将能量函数设置为:
这里m是Psi;(Phi;(x))的基数。 对于每个补片Psi;i(Phi;(x)),我们使用Psi;(Phi;(xs))中所有ms示例补丁上的归一化互相关来找到其最佳匹配补丁Psi;NN(i)(Phi;(xs)):
我们使用归一化的互相关来实现更强的不变性。 匹配过程可以通过附加的卷积层有效地执行(在实现细节中解释)。 请注意,虽然我们使用归一化互相关来找到最佳匹配,但是它们的欧几里德距离在等式2中被最小化,以产生视觉上接近参考样式的图像。
内容损失函数:Ec通过最小化Phi;(x)和Phi;(xc)之间的欧氏距离平方来指导合成图像的内容:
正规化器:在网络的判别训练期间丢弃了大量的低级图像信息。 因此,从其神经编码重建图像可能是有噪声且不自然的。 因此,我们惩罚平方梯度范数[20]以鼓励合成图像的平滑度:
最小化:我们使用有限内存BFGS的反向传播最小化方程1。 特别地,Es相对于特征图的梯度是Phi;(x)与使用来自Phi;(xs)的块的基于MRF的重建之间的元素差异。 这种重建本质上是一种纹理优化过程[15],它使用神经小块而不是像素小块。 在神经水平上优化该MRF能量是至关重要的,因为传统的基于像素的纹理优化将不能产生相当质量的结果。
权重:alpha;1和alpha;2分别是内容约束和自然图像先验的权重。 我们将alpha;1= 0设置为非指导合成。 默认情况下,我们为样式传输设置alpha;1= 1,而用户可以精确调整此值以在内容和样式之间进行插值。 对于所有情况,alpha;2固定为0.001。
- 分析
我们的主要观点是将MRF先驱与dCNN相结合可以显着提高合成质量。 本节从三个方面对我们的方法进行了详细的分析:我们首先显示比较的顶点像素值,神经激活函数导致更好的小块匹配和混合。 然后,我们将展示MRF如何进一步改善结果。
-
- 神经匹配
非参数图像合成的一个关键组成部分是将合成数据与示例相匹配。 (图3是一个玩具示例,显示神经激活提供比像素更好的匹配。任务是匹配两个不同的汽车图像。第一列包含来自一辆汽车的查询补丁;每隔一列显示另一辆汽车中的最佳匹配, 在不同的特征图(包括像素层)中找到了它们。
使用像素图或者图像层(relu2_1)对斑点变化敏感,并且层间relu3_1和relu4_1的神经激活效果更好。顶层(relu5_1)似乎降低了匹配质量。 这不足以令人惊讶,因为中间层的特征通常用于识别对象部分,如[29]中所讨论的那样。出于这些原因,我们在层relu3_1和relu4_1处使用神经小块作为MRF来约束合成过程。
-
- 神经混合
用于最小化纹理项的最小二乘优化(等式2中的Es)导致用于重叠贴片的线性混合操作。在这里,我们展示混合神经贴片通常比直接混合像素贴片更好。具体来说,我们比较两组混合结果:第一种方法是直接混合两个输入块的像素。第二种方法通过网络传递这些块,并将它们的神经激活函数混合在不同的层。然后,对于每一层,我们使用[20]中描述的方法将混合结果重建回像素空间。
图4比较了这两种方法的结果。前两列是用于混合的输入补丁A和B.故意选择它们在语义上相关并且在结构上相似,但在像素值方面显着不同。第三列是这两个补丁的平均值。剩下的每一列都显示了在不同
资料编号:[5865]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。