多模态转换:一种用于快速艺术风格转换的分层深度卷积神经网络外文翻译资料

 2022-08-08 11:28:56

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


多模态转换:一种用于快速艺术风格转换的分层深度卷积神经网络

摘要

在学术界和工业界,将艺术风格移植到日常照片中已经成为一项非常受欢迎的任务。最近,离线训练取代了在线迭代优化,实现了几乎实时的风格化。然而,当这些风格化网络直接应用于高分辨率图像时,局部区域的风格往往与期望的艺术风格不太相似。这是因为转换过程未能捕捉到小而复杂的纹理,并保持艺术品的正确纹理比例。在这里,我们提出了一个多模卷积神经网络,它考虑了颜色和亮度通道的真实表示,并在多个尺度的损失增加的情况下执行层次化。与最先进的网络相比,我们的网络还可以通过离线进行更复杂的训练来实现近乎实时的风格转换。通过多种形式在多个尺度上恰当地处理风格和纹理线索,我们不仅可以传递大规模的、明显的风格线索,也可以传递微妙的、细腻的风格线索。也就是说,我们的方案可以产生视觉上令人愉悦的结果,并且更类似于多种需要的艺术风格,在多个尺度上使用颜色和纹理线索。

1.介绍

风格转换,或用另一种风格重新绘制一张已有的照片,被认为是艺术上一个具有挑战性但又有趣的问题。最近,由于Gatys等人[8]的研究成果,该任务在学术界和工业界都成为了一个活跃的话题。Gatys等人在[8]的研究中使用了预先训练好的视觉识别深度学习网络来捕捉风格和内容的表现,并取得了令人惊叹的视觉效果。不幸的是,由于在线迭代优化过程,传输运行时间非常长。为了解决这个问题,可以用相同的损失准则离线训练前馈网络,以生成视觉上接近(但仍然有些差)的程式化结果。这样,在应用程序时只需要通过前馈网络的一次推理。这使得计算算法的速度快了数百倍[13,25]。虽然过去的工作为许多不同类型的艺术作品创造了视觉上令人愉悦的结果,但有两个重要的缺点突出:(1)当前的前馈网络[13,25]是根据风格图像的特定分辨率进行训练的,因此偏离该分辨率(或大或小)会导致比例不匹配。例如,在高分辨率图像上应用尺寸为256的样式指南训练的模型将产生纹理比例小于艺术样式的结果,(2)当前的网络通常不能在高分辨率图像上捕捉许多种类的艺术品的小而复杂的纹理,如笔触。尽管已有研究表明,这些前馈网络在具有抽象、大规模纹理和易于识别的笔触的艺术品上功能相当好,例如文森特·梵高的《星夜》,但艺术风格远比所展示的要广泛。也就是说,不同的艺术风格可能会以细腻、精细的笔触和笔触为特征,因此,我们观察到,这些风格传递网络的结果往往对各种各样的艺术风格都不尽如人意。在本文中,我们提出了一种新的分层深度卷积神经网络结构,以实现快速样式转换。我们的贡献有四方面:(1)引入层次网络,并设计了相应的训练方案,利用风格图像的多尺度,既可以学习一种艺术风格的粗糙的、大尺度的纹理变形和精细的、精致的笔触;(2)我们的分层训练方案和端到端的CNN网络架构,使我们能够将多个模型组合成一个网络来处理越来越大的图像尺寸;(3)我们的网络不再只考虑RGB颜色通道,而是同时使用颜色和亮度通道的表示来进行样式转换;(4)通过实验表明,我们的分层样式传输网络能够更好地捕捉粗糙和复杂的纹理模式。

我们的分层风格传递网络使用多种模式的混合,在不同的尺度上使用多种风格损失进行训练,因此我们将其与只有一个风格损失的前馈风格传递网络区分为多模态传递[13,25],我们将其称为单一传递。在图1中,我们给出了一个例子,比较了我们的多模态传输网络与当前最先进的单一传输网络的结果。图1显示了多模态迁移在学习不同层次的纹理(包括风格、颜色、纹理变形较大和精细的笔触)方面的优势。特别要注意的是,我们的方法可以更接近地模拟艺术品的笔触。在第4节中,我们将展示多模态传输也可以用来训练组合模型,使单一图像具有多个不同的艺术风格。

(a)风格图 (b) Gatys结果 (c) Johnson结果 (d) Ulyanov结果 (e)本文结果 (f)内容图

图1:顶部一行:(a)风格指南是Tomas King的《The Close of Day》,(f)是内容图像。(b)是Gatys等人基于优化方法的结果。(由于方法内存限制,结果大小为512)(c)、(d)和(e)为不同前馈网络产生的结果(大小均为1024)。底部行:从顶部行开始,红色方框内的区域的放大显示。可以看到,所有的结果都用风格图像的颜色重新绘制。然而,仔细检查后发现,(c)和(d)中的笔触没有被很好地捕捉到。(b)中的放大区域有点模糊。与其他的相比较,我们的多模态传输(e)能够更精确地模拟原作在高分辨率图像上的笔触。

2.相关著作

理解深层神经网络的表现。

最近,人们在理解深层神经网络方面做了开创性的工作。Zeiler和Fergus[30]的DeconvNet方法通过识别哪些图像补丁负责某些神经激活来学习某些网络输出是如何获得的。Yosinski等人[29]的目的是通过可视化内部神经元来理解深层网络所执行的计算。Mahendran和Vedaldi[19]倒转了特定层的图像表示,以了解哪些信息被网络保存。后两种方法以感知网络函数为目标的优化过程生成可视化图像。其他情况也采用了类似的优化过程[23,20]

基于对深度卷积网络[15]强大表征的更好理解,许多传统的视觉任务得到了更好的解决。基于优化的样式转换就是这样一个例子。与以往的纹理合成算法通常采用非参数方法[5,28,4,11,1,16,17]不同,Gatys等人首先提出了一种基于预先训练的卷积神经网络[6]表示计算目标损失的纹理图像合成优化方法。然后,这种纹理损失与来自Mahendran和Vedaldi[19]的内容损失结合在一起,以执行[8]风格转移任务。

图像生成的前馈网络。

由于迭代优化过程,基于优化的图像生成方法的计算成本很高。相反,许多深度学习方法使用神经网络计算的感知目标作为损失函数来构建前馈神经网络来合成图像[3,9,2,22]

快速风格转换取得了良好的效果,受到了广泛的关注。Johnson等人[13]利用Gatys等人[8]中定义的感知损失提出了一种前馈网络,用于快速样式传递和超分辨率。引入了一种类似结构的纹理网来合成有纹理和风格化的图像[25]。最近,Ulyanov等人的[26]表明,用实例归一化替换前馈网络中的空间批归一化[12]可以显著提高生成图像的质量,实现快速的风格转换。在这里,我们提出了进一步改进这种风格转换算法,以使用混合模式的分层网络来处理逐渐变大的图像。此外,它允许使用多种不同的样式来重新绘制单个输入图像。

3.多通道传输网络

3.1总体架构和学习方案

我们提出的网络如图2所示,由两个主要组成部分组成:前馈多模态网络和损耗网络。前馈多模态网络(MT网络)是一种分层深度残差卷积神经网络。它由三个子网组成:风格子网、增强子网和细化子网。该子网分别用测得的、、数据进行参数化(这些参数稍后明确显示)。在较高的层次上,MT网络以一张图像为输入,训练生成多个输出图像,输出图像的大小不断增大,

。 (1)

这些输出图像然后分别作为损失网络的输入,以计算每幅图像的风格化损耗。总损失是所有风格化损失的加权组合。稍后我们将在第3.2节中说明损耗网络和总损耗的定义。

图2:总体架构。请参见第3.1节的解释。

在测试时,为了在应用于较大的图像时产生艺术品的相同风格化效果和正确的纹理比例,机器翻译网络分层地风格化图像:首先使用双线性下采样层将输入图像的大小调整到256,并通过风格子网进行风格化,捕捉艺术品的大的颜色和纹理特征。接下来,风格化结果,即第一输出,被向上采样到512,并通过增强子网被传送到输出,这增强了风格化强度。然后它被重新调整到1024。最后,细化子网消除了局部像素化工件,并进一步细化了结果。经过这三个阶段的处理,获得了高分辨率和最具视觉吸引力的结果。请注意,虽然我们使用两级层次结构来说明这个过程,但同样的概念可以递归地扩展,以实现逐渐变大的图像的风格化。

3.2损失函数

在这一节中,我们首先介绍了单一风格化损失函数,然后提出了一个分层风格化损失函数,用于训练我们的多模式传输网络。

3.2.1单一风格化损失函数

类似于先前快速风格转换工作中的损失定义[13,25],风格化损失也来自Gatys等人[8],其中损失网络(为对象识别优化的预先训练的VGG19网络[24])用于提取图像表示。

定义两种感知损失来衡量生成的图像在多大程度上结合了内容目标的内容和风格目标的纹理和风格线索(见图3)。

图3:损耗网络。请参见3.2节的解释。

内容损失:内容损失函数用于度量和之间的差异。设表示应用于图像的损失网络的第层的第个特征映射,内容损失是在第层两个特征表示之间的平方误差损失

。 (2)

即内容损失直接比较由对应层计算的特征图,适合于描述空间内容相似性。

纹理或风格损失:Gatys等人提出,每一层的特征图谱之间的相关性损失网络可以看作是图像的纹理表示[6,8]。这些相关性由Gram矩阵给出,其元素是这些特征映射之间的成对标量乘积:

。 (3)

使用一组Gram矩阵,,作为纹理表示,去掉空间信息,保留输入图像的颜色和强度分布的统计轮廓。所以纹理损失函数定义为

。 (4)

最后,将MT网络每次输出的风格化损失定义为内容损失和纹理损失的加权总和

, (5)

其中和分别为内容损失和纹理损失的权重。

3.2.2分层风格化损失函数

多模式传输网络可以产生个增加大小的个输出结果(图2中网络的),然后对每个输出结果计算一个程式化损失

(6)

其中和是相应的内容目标和样式目标,它们是输出的子网的输入,是艺术品的缩放版本。通过对不同风格尺度的子网进行训练,我们可以控制对不同子网学习的艺术特征类型。我们再次强调,这个概念可以很容易地扩展到更多的层。

因为这种风格化损失是基于整个网络的不同层的输出来计算的,所以总损失(例如,所有风格化损失的加权组合)在这里不能用于直接向后传播和更新权重。因此,采用了并行标准,以便使用不同的风格化损失来反向传播不同范围的层的权重。我们定义了分层风格化损失函数,它是这种风格化损失的加权和,如

, (7)

其中是风格化损失的权重。

因此,在对自然图像的端到端学习过程中,训练表示的每个子网以最小化从后者输出(后者表示在前导方向上出现的时间较晚)计算出的并行加权风格化损失

(8)

设一般的反向传播函数用表示,那么对每一次迭代,子网的权值更新(梯度)可记为

, (9)

因此,当前子网的权值受到当前级别风格化损失和后一级子网的梯度的影响。

由式(8)可以看出,虽然各个子网的设计目的不同,但并不是完全独立的。以前的子网也有助于尽量减少后者的损失。因此,较浅的CNN结构可以用于后面的子网,这样既节省了计算内存,又节省了运行时间。

3.3网络体系结构

单一传输网络(如[13,25])的一个关键缺点是,单一传输网络的训练规模限制了捕获的样式细节的范围。因为它是用一种特定尺度的风格图像进行训练的,所以在训练时我们需要选择它学习的是粗糙的纹理还是精细的笔触。也就是说,它以牺牲另一个为代价来学习其中一个。

为了解决这一问题,我们设计了层次结构,用不同尺度的风格图像训练不同的子网来学习不同层次的艺术纹理线索。这种设计使测试图像能够通过不同层次的风格来提高分辨率。此外,由于所有这些子网被组合成一个网络并进行分层训练,后一个子网也能够增强和改进先前子网的结果,使我们的方案成为一个提高效率和稳定性的协作方案。

我们已经尝试了几个具有不同层次和不同内部结构的架构。在这里,我们介绍如图2所示的网络的总体架构,根据我们的经验,它具有最好的风格化质量。

如前所述,多模式传输网络由三个可学习的子网组成,即风格子网、增强子网和细化子网,每个子网都遵循固定的双线性上采样/下采样层。请注意,增强子网和细化子网之间的上采样层仅在测试时插入,因此在训练期间,细化子网的输入仍然是512,这极大地减少了所需的内存并加快了训练过程。这些网络的显著特征解释如下。

3.3.1风格子网

亮度-颜色联合学习:为了更好地解决保存小而复杂的纹理的问题,我们的网络利用了颜色和亮度通道的表示,因为视觉感知对亮度的变化比颜色要敏感得多[27,11,7]。我们将亮度通道从RGB彩色图像中分离出来,使用两个独立的分支(RGB- block和L-Block)来学习它们的不同表示。然后,从两个分支计算出的特征映射将沿着深度维度连接在一起,并由随后的conv块进一步处理。

RGB-Block由三个步幅卷积层(分别为,后两个分别用于下采样)和三个剩余块[10]组成,LBlock除了卷积深度不同外,结构相似。con-block由三个残差块、两个用于上采样

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[258216],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。