基于卷积神经网络的图像风格迁移算法研究外文翻译资料

 2022-08-08 11:29:19

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


概述

针对当前的艺术创作和动画创作过程,在从草稿到风格化图像的转换过程中有很多重复的手工流程。本文提出了一种基于深度学习框架的解决方案,以实现图像生成和风格迁移。该方法首先使用条件生成来抵抗网络,优化训练映射关系的损失函数,然后从输入草稿生成实际图像。然后,通过定义和优化风格迁移模型的感知损失函数,从图像中提取风格特征,从而形成图像与风格化艺术图像之间的实际转换。实验表明,该方法可以大大减少着色和不同艺术效果的转换工作,从而达到将简笔画转换为实际物体图像的目的。

关键词

深度学习,图像产生,风格迁移

  1. 介绍

当今,艺术创作和动画创作的过程主要是首先使用素描,接着通过一系列比如上色来生成一幅生动的图片。当图像的风格需要转换时,大多数素描需要被重新上色,这会导致在过程中产生非常大量的重复的手工操作。本文应用到深度神经网络的优点,结合有条件的对抗网络和卷积神经网络来自动实现素描身体和风格转换的过程。卷积神经网络是解决各种图像识别和检测的主要方法。卷积神经网络可以通过深度学习使损失函数达到最小化。尽管特征识别的过程是自动化的,它仍然需要大量人力来设计它的标签。相较之下,使用生成模型和判别模型生成反网络生成对抗网络,同时使损失最小化,就可以用损失函数生成一幅新图片。

风格迁移是从一种参考样式迁移到另一种参考样式以生成另一幅图像的过程。前馈图像转换任务已被广泛使用。 许多转换任务使用逐像素差分方法来训练深度卷积神经网络,该深度卷积神经网络通过将CRF作为RNN,与网络的其他部分一起训练,从而跨越了逐像素差异。我们的转化网络的结构受到文献[3]和[4]的启发,在网络中进行下采样以减少特征图的空间范围,然后在网络中进行上采样以生成最终的输出图像。有些方法将逐像素差分转化为惩罚图像梯度,或者使用CRF损失层来强制输出图像保持一致。文[5]中的前馈模型是用逐像素差分的损失函数来训练的,用于灰度图像的着色。有许多论文使用优化的方法来生成图像,它们的对象是感知的,而感知依赖于从CNN中提取的高级特征。Mahendran和Vedaldi从卷积网络中反转特征,通过最小化特征,以了解存储在不同网络层的图像信息;类似的方法也用于反转局部二进制描述符[6]和HOG特征[7]。多索维茨基和布罗克斯的工作与我们最相关。他们训练一个前馈神经网络来反转卷积特征,并快速逼近所提出的优化问题的结果。然而,他们的前馈网络采用逐像素的方式。重构损失函数进行训练,我们的网络直接使用了文献[8]中的特征重构损失函数。Gatys在文献[9][10]中展示了艺术风格转换,结合了一个内容图和另一个风格图。通过最小化根据特征重构的代价函数,风格重构的代价函数也是基于前训练模型的改进。以前在纹理合成中使用过类似的方法。他们的方法产生了高质量的记录,但计算成本非常昂贵,因为每次迭代的优化需要一个前馈,反馈预训练网络。为了克服这种计算量的负担,本文训练了一种前馈神经网络来快速获得可行解。

我们的网络由两部分组成:图像转换网络和损耗网络,其中图像转换网络是一个深度残差网络[11],参数是权重,它通过映射转换输入图像。为了输出图像,每个损耗函数计算一个标量值,它测量输出和目标图像之间的差异。利用SGD训练图像转换网络以便于使图像转换网络具有良好的性能一系列损失函数的加权和仍然退化。本文实现了从草图中生成风格化艺术图像的任务。首先,利用条件生成对抗网络,参考文献[12],优化训练映射关系的损失函数,从输入中生成实际图像素描。本文实现了从草图中生成风格化艺术图像的任务。首先,利用条件生成对抗网络,优化训练映射关系的损失函数,从输入草图生成实际图像。本文训练了一个用于图像转换任务的前馈网络,没有使用逐像素的差分来构造损失函数,而是使用感知损失函数从预先训练的网络中提取高级特征。在训练过程中,感知损失函数比逐像素损失函数更适合用来测量图像之间的相似度。经过训练后,子网图像的翻译效果达到了预期的效果,并且由于反网络的特点,我们不再需要像普通CNN网络那样手工设计映射函数。实验表明,即使不用手动设置损耗函数,也能得到合理的结果。

  1. 相关模型分析
    1. 结构生成图像建模结构损失

图像生成图像建模中的结构损失图像转换问题通常表示为每个像素的分类或回归问题,参考文献[13],输出空间视为“非结构化”,输出的每个像素视情况独立于输入图像的所有其他像素。相反,有条件的GANs学习结构性损失。结构性损失惩罚了输出的节点构造。大多数文献都考虑这种类型的损失,例如条件随机场[14]、SSIM度量[15]、特征匹配[16]、非参数损失[17]、卷积伪先验[18]和基于匹配协方差统计的损失[19]。我们的条件GAN不同于这些学习损失,理论上可以惩罚任何不同于输出和目标的可能结构。

    1. 条件GAN

本文不是第一次将GANs应用于条件设置。曾经就有过使用离散标记[20]、文本等诸如此类的来约束GANs的工作。基于图像的GANs已经解决了图像恢复[21]、从普通地图预测图像[22]、基于用户约束编辑图像、视频预测、状态预测以及从照片生成商品和样式转换[23][24]。这些方法都是根据具体的应用而改变的,我们的方法比大多数方法都简单。

发生器和鉴别器中几种结构的选择方法也与以前的工作有所不同。与前一个不同的是,我们的生成器使用了“U-Net”结构[25],鉴别器使用了卷积“PatchGAN”分类器。以前,人们提出了一种类似的PatchGAN结构来捕获本地风格的统计信息。

  1. 本文使用到的方法

3.1.图像生成

GANs是一个生成模型,用于学习随机噪声向量到输出图像::→::→的映射。相反,条件GAN学习观测图像和随机噪声向量到目标的映射。公式为:

(1)

训练生成器生成一张鉴别器不能辨别的图像,并且训练鉴别器尽可能多地检测生成器的“伪造”图像。

      1. 图像生成目标函数

条件GAN的目标函数的计算公式为:

(2)

训练生成器想要使这个函数值最小化,训练鉴别器想要使这个函数值最大化,也就是说,为了测试条件对鉴别器的重要性,我们比较没有鉴别器的变体形式,没有输入,利用传统损耗发现的条件GAN方法有利于混合GAN目标方程:鉴别器的工作保持不变,但发生器不仅欺骗鉴别器,而且尽可能生成真实图像。基于这样的考虑,使用距离比使用距离要好。因为支持较少的模糊,所以公式是:

(3)

最终的目标函数是:

(4)

      1. 网络结构

本文采用了文献[9]中的发生器和鉴别器的结构,它们都采用了“conv-BatchNorm-ReLu”的卷积单元形式。附录提供了网络结构的详细信息。下面我们只讨论主要特性。

建造一个带跳线的发生器

图像转换问题的一个特点是将高分辨率的输入网格映射到高分辨率的输出网格。另外,对于我们正在考虑的这个问题,输入和输出在外观上是不同的,但它们与底层结构是一致的。因此,输入的结构可以大致与输出的结构一致。基于这些考虑,我们设计了发电机的结构。我们模仿了“U-Net”增加了跳线连接。特别是,我们在每个ii和n-in-i层之间增加了跳线,其中nn是网络中的总层数。每个跳线只是连接ii层和n-in-i层的特征通道。

构造马尔可夫过程的鉴别器(PatchGAN)

众所周知,和丢失在图像生成问题中具有模糊性。我们设计的鉴别器结构只惩罚了斑块大小的结构。鉴别器将区别每个的真假。我们在整个图像上运行这个鉴别器(滑动窗口),最后取平均值作为最终的输出。这种鉴别器将图像建模为一个马尔可夫随机场,假设由斑块直径分割的像素彼此直接独立。这一发现已被研究,是纹理和样式模型中常用的假设。因此,我们的PatchGAN可以理解为一种纹理/风格损失。

优化与推理

为了优化网络,我们使用了标准的方法:交替训练鉴别器和生成器。我们使用小批量SGD并应用Adam优化器。在推理过程中,我们以与训练阶段相同的方式运行生成器。

    1. 风格迁移

该系统由两部分组成:图像转换网络和损耗网络(用于定义一系列损耗函数)。图像转换网络是一个深度残差网络,其参数为权值。它通过映射将输入图像转换为输出图像,每个损失函数计算一个标量值,该标量值度量输出和目标图像之间的差异。使用SGD训练图像转换网络,效果图如图1所示。

其目的是通过运算计算一系列损失函数的加权和,公式为:

(5)

图1. 风格转换效果图 (a)内容(b)风格(c)结果

我们使用一个预先训练好的网络进行图像分类来定义我们的损失函数。然后我们使用一个损失函数来训练我们的深卷积变换网络,这个损失函数也是一个深卷积网络,如图2所示。损失网络能够定义一个特征(内容)损失和一个风格损失,分别衡量内容和风格的差异。对于每个输入图像,我们有一个内容目标、一个样式目标用于样式转换,内容目标是输入图像,输出图像,样式应该组合到内容。我们为每个目标类型训练一个网络。

图2.训练网络

      1. 图像转换网络架构

我们使用卷积或微步卷积代替池化层。我们的神经网络由五个残差块组成。除最后一个输出层外,所有非残差卷积层都遵循空间批处理归一化,非线性层则遵循RELU。最后一层使用缩放Tanh以确保输出图像的像素在[0,255]之间。除第一层和最后一层使用9times;9内核外,其他所有卷积层都使用3times;3内核。

输入和输出:对于样式转换,输入和输出都是大小为3times;256times;256的彩色图像。对于超分辨率重建,有一个上采样因子f,输出是高分辨率图像3times;288times;288,输入是低分辨率图像3times;288/ftimes;288/f,因为图像转换网络是完全卷积的,所以在测试过程中,它可以应用于任何分辨率的图像。

下采样和上采样:对于超分辨率重建,有一个上采样因子f,我们使用几个残差块,后跟log2f体积和网络(步长=1/2)。这个过程不同于文献[1]。在将输入放入网络之前,使用双三次插值对低分辨率输入进行上采样。微步卷积允许上采样函数与网络的其余部分一起训练且不依赖于任何固定的上采样插值函数。对于图像转换,我们的网络使用两个contension=2卷积对输入进行下采样,然后是几个剩余块,然后是两个卷积层(步长=1/2)上采样。

      1. 知觉损失函数

我们定义了两个知觉损失函数来衡量两幅图像之间知觉和语义的高度差异。使用预先训练好的网络模型进行图像分类。在我们的实验中,这个模型是VGG-16[25],使用Imagenet的数据集进行预训练。

特征(内容)丢失:我们不建议逐像素比较,而是使用VGG来计算高级特征(内容)表示。此方法与使用VGG-19[26]提取样式特征的原始样式相同。公式为:

(6)

样式丢失:特征(内容)丢失会惩罚输出图像(当它偏离目标时),因此我们还要惩罚样式偏差:颜色、纹理、常见图案等等。为了达到这样的效果,Gatys等人提出了一个损失函数用于后续的风格重建。设表示网络的第层,输入为,特征映射的形状为,定义矩阵为矩阵(特征矩阵)。这些元素来自以下公式:

(7)

如果我们把理解为维的一个特征,并且每个特征的大小是,那么左与维的非中心协方差成正比。每个网格位置都可以用作单独的示例。因此,这可以捕获哪些功能可以驱动其他信息。通过将的形状调整为矩阵,可以在一个非常有趣的时刻计算出梯度矩阵,其形状为,然后为。即使输出和目标的大小不同,样式重建的损失也会得到很好的定义,因为通过梯度矩阵,两者会被调整为相同的形状。

  1. 主要结果
    1. 条件对抗网络模型

为了优化GANs的通用性,我们在各种任务和数据集上测试了该方法,包括图形任务(如照片生成)和视觉任务(如语义分割)。我们发现,在小数据集上往往可以得到很好的结果。我们使用的训练数据集仅包含400个图像,使用这种大小的训练集可以非常快速地进行训练。一些超级参数如表1所示。

定性结果:显示完成的模型,实际生成的模型显示效果。下面我们列出三组图片,如图3所示,输入的是图,第二列是输出(模型生成结果),第三列是实际结果。式(8)为计算公式用过的。大量实验表明我们的平均值在0.4左右。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[258207],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。