英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
一种关于艺术风格的神经网络算法
Leon A。 Gatys, Alexander S。 Ecker, Matthias Bethge
在美术,特别是绘画中,人类掌握了通过在图像的内容和风格之间形成复杂相互作用来创造独特视觉体验的技巧。到目前为止,这个过程的算法基础是未知的,并且不存在具有类似能力的人造系统。然而,在视觉感知的其他关键领域,例如对象和人脸识别,最近有一些被称为深度神经网络的生物启发式视觉模型表现出了接近人类的能力。这里我们介绍一个基于深度神经网络的人造系统,它可以创造出高感知质量的艺术图像。该系统使用神经表示来分离和重组任意图像的内容和风格,为创建艺术图像提供了一种神经网络算法。此外,鉴于性能优化的人工神经网络与生物视觉之间的惊人相似性,我们的工作为人类创造和感知艺术形象提供了一种算法理解的途径。
在图像处理任务中最强大的一类深度神经网络称为卷积神经网络。卷积神经网络由几层小的可计算单元组成,它们分层在前馈中处理视觉信息。可以将每层单元理解为图像过滤器的集合,每个图像过滤器从输入图像中提取特定的特征。因此,所谓的特征映射组成了给定图层的输出:即输入图像的不同滤波版本。
当对卷积神经网络在物体识别方面进行训练时,它们会生成一种能够沿着层次不断明确特征信息的图片的表征。因此,沿着网络的层次,这个输入图片被转化后的表示,会越来越关注实际的图片内容而不是它具体的像素值。我们可以通过只重构该层的特征图谱,直接可视化每层中包含的输入图片的信息。神经网络的更高层捕捉了物体在高层的内容和在输入图片的应用,但是不含重构后的精确像素值。与此相反,从更低的层次的重构则重新生成了原始图像的具体像素值。因此我们参考了高层神经网络的特征反应来表现内容。为了获取一个输入图片的风格表现,我们使用了一个被设计来捕获纹理信息的特征空间。这个特征空间是建立在网络每一层的过滤器的响应上的。它由空间范围内的特征图谱在不同的过滤响应间的联系组成(细节看method部分)。通过包含多层的特征关联,我们获得了一个固定的,多层规模的关于输入图片的表现,这个表现可以捕获宽的纹理信息而不是全局的应用。
图像1 :卷积神经网络 (CNN)。一个给定的输入图像由一个卷积网络各个处理过程中的被过滤过的图像集呈现。当不同的过滤器的数量沿着处理的层次增长时,一些下采样机制会减小过滤后图像的大小,导致了网络每一层的单元总数的减少。
内容重构。我们可以通过从一个已知特定层的网络的响应重构输入图片来可视化CNN中不同处理层的信息。我们重构了输入图像从VGG的lsquo;conv1 1rsquo; (a), lsquo;conv2 1rsquo; (b), lsquo;conv3 1rsquo; (c), lsquo;conv4 1rsquo; (d) and lsquo;conv5 1rsquo; (e)。发现从较低层重构的几乎可以称作完美 (a,b,c)。在神经网络的较高层,具体的像素值信息使更高层次的内容丢失了(d,e)。
风格重构。在原始的CNN的最高层我们建立了一个新的特征空间来捕获输入图片的风格。风格表现计算了CNN不同层中不同特征的联系。我们重构了输入图像的风格,建立在以下CNN层的子集( lsquo;conv1 1rsquo; (a), lsquo;conv1 1rsquo; and lsquo;conv2 1rsquo; (b), lsquo;conv1 1rsquo;, lsquo;conv2 1rsquo; and lsquo;conv3 1rsquo; (c), lsquo;conv1 1rsquo;, lsquo;conv2 1rsquo;, lsquo;conv3 1rsquo; and lsquo;conv4 1rsquo; (d), lsquo;conv1 1rsquo;, lsquo;conv2 1rsquo;, lsquo;conv3 1rsquo;, lsquo;conv4 1rsquo; and lsquo;conv5 1rsquo; (e))。这样创作出的图像在增长的规模上符合了给定图像的风格,同时丢弃了全局的场景应用的信息。
我们可以通过重构一个符合(match)输入图风格表现的图像来可视化在神经网络不同层的风格特征空间捕获的信息(图1,风格重构)。事实上从风格特征重建产生的纹理化的输入图片,捕获了它依照颜色和局部结构的外观。而且输入图片的局部图片结构的大小和复杂性会沿着处理的层次增加。我们参考了多层神经元的呈现作为风格表达。
这篇论文的关键在于发现风格和内容在卷积神经网络中的表达是可以分开的。也就是说,我们可以独立地操纵两种表达来产生新的、有意义的图片。为了展示这个发现,我们生成了一些混合了不同图片内容和风格表现的图片。我们特地匹配了一张描绘the “Neckarfront” in Tubingen的照片和几个不同时期的有名的艺术作品作为风格。
这类图片是发现一张和照片的内容表现和各自的艺术作品的风格表现两相匹配的图片合成的(图2)。
这些图片是通过寻找一个同时匹配照片的内容表现和各类艺术的图片合成的(see method for details)。在原始照片的全局布置被保留的同时,构成全局景色的颜色和局部结构则由艺术作品提供。实际上,它把照片渲染成了艺术作品的风格,比如说合成图片的表现类似于艺术作品,尽管它的内容和照片相同。
正如概述所言,风格表现是一个多层次的表达,包括了多层神经网络。在我们在图2中展示的图片那样,这个风格表现包括了整 个神经网络结构的各个层次。风格也可以被定义为更为局部化,因为它只包含了少量的低层结构,这些结构能产生不同的视觉效果(图2,along the rows)。当风格表现匹配到网络的更高层时,局部的图片结构会逐渐在大的尺寸上匹配,产生了一个更平滑更连续的视觉体验。因此,视觉上更有感染力的图片通常是由风格表现匹配到更高层网络的方法产生的(图2,last row)。
当然,图片内容和风格不能被完全分离。当合成一张结合了某张图片的内容和另一张图片的风格时,通常不存在一个图片能同时完美的匹配这两张图片。然而,这个我们在合成过程中要最小化的loss函数包含了我们很好分离开的两个方面,内容和风格(see method)。因此我们可以平滑地调节在重构内容或者是风格时的重点(图3,along the columns)。着重强调风格产生的图片可以匹配艺术作品的表现,实际上也就是给了一个纹理化的版本,但是几乎不能表现任何照片的内容(图3,first column)。当把比重放在内容上时,结果可以很清晰得确认到照片,但是画作的风格就不能很好地匹配(图3,last column)。对于一对特定的源图片我们可以调节在内容和风格间的协调来产生视觉上有感染力的图片。
图3:合成 *Composition VII * by Wassily Kandinsky的风格的细节结果
每一行展示的结果,要匹配的风格表现用到的CNN的子集层数逐渐增加(see Methods)。我们发现由风格表现捕获的局部的图片结构的大小和复杂性随着包括了更高的网络层次增加。这可以解释为是由于沿成网络处理的结构感受域的大小和特征复杂性增加。每一列展示了在内容和风格上取不同的相关权值的结果。每一列上方的数值指示了比值a/b(alpha/beta)。
在这里我们展示了一个可以达到分离图片内容和风格的人工神经网络,因此它也可以用另一个图片的风格改写某张图片的内容。我们通过生成新的,艺术化的,结合了一些有名的画作的风格和任意选定的照片的内容的合成图片来展示。特别的,我们推导出图片的内容和风格在神经网络中的表现的特征响应为了物体识别而训练的表现很好的深度神经网络。就我们所知,这是把整个自然图片的风格和内容的图片特征分开的首次展示。之前的在分离图片内容和风格上的工作所评估的图片的输入要简单很多,比如说不同的手写单词或者是人脸或者是不同姿势的小图片。在我们的展示中,我们提供了一个在不同的有名的艺术作品风格下的给定图片。这个问题通常是用计算机视觉中被称为相片拟真处理技术(photorealistic rendering)的方法研究的。在概念上更相关的方法使用了纹理转化来达到艺术风格转换。与此相反,通过使用为了物体识别训练的深度神经网络,我们在特征空间中使用的手法清楚得表现了图片高层的内容。从为了物体识别训练的深度神经网络中提取的物征已经被应用到风格识别上来根据艺术作品产生的时期分类。那里,分类器是由原始的网络激活层训练的,我们将其称为内容表现。我们猜测向一个固定的特征空间的转化比如说我们的风格表现或许可以在风格分类上有一个更好的表现。
一般来说,我们合成图片的方法,混合了不同来源的内容和风格,提供了一个新的,有趣的工具来学习感知和艺术,风格和内容独立的图片通常的神经表现。我们可以设计新颖的激励来介绍两个独立的,感官上有意义的变体的源:图的表现(appearance)和内容 。我们想像这可能对于很多关于视觉感知的研究都会很有意义,范围从心理物理学(psychophysics)的功能影像到电生理学(electrophysiological)的神经记录。事实上,我们的工作提供了一个神经表达是怎样独立得捕获图片的内容和它被表达的风格的算法理解。重要的是,我们的风格表达的数学形式生成了一个清楚的,可检验的层次结构关于图现外观的表现,一直细微到一个神经元的层次。这个风格的表现简单地计算了在网络中不同种神经元的相互关系。提取的不同神经元间的相互关系是一种生物上可信的计算,也就是说,比如,由主要视觉系统中被称为的复杂细胞来执行。我们的结果表明了表现一个复杂细胞像沿着腹侧流(ventral stream)的不同处理过程的计算是一个可能的获得一个视觉输入的外观的内容独立的表达的方法。
总而言之一个被训练用来处理生物视觉的计算任务的神经系统,自动地学习允许图片内容和风格分离是很神奇的。或许可以这样解释,当学习物体识别时,这个网络变得对于所有的保留物体特征的图片变量都保持不变。
Method
在正文中展示的结果是以VGG网络为基础产生的,一个在一般物体识别的任务上可以和人类表现相比较的卷积神经网络,并且被大量地应用。我们使用由VGG19中的16个卷积层和5个池化层特征空间。我们不需要使用任何全连接层。这个模型公开可用而且可以在caffe框架中找到。为了图片合成我们用平均池化替代了最大池化来改进梯度流而且可以获得更有感染力的结果。
事实上网络的每一层都定义了一个非线性的过滤器组,它的复杂性随着在网络中所在层的位置而增加。因此一个给定的输入图片x在CNN的每一层的编码的过滤器是响应图片的。一个有着Nl个不同的过滤器的层有Nl个特征图谱,每个图谱的大小Ml,Ml是特征图谱的长与宽的乘积。所以对于层L的响应可以被存储在矩阵中Fl中,Fij表示第i个过滤器在层L中的第j个位置的激活。为了可视化由不同层次编码的图片信息(图1,内容重构)我们对一个白噪声图片进行坡度下降来找到另外一张可以匹配原图的特征反应的图片。所以让向量p和向量x成为原始图像以及P和F分别是L层中的特征表示。然后我们定义两个特征之间的平方误差损失。
相对于层一中激活的神经元的损失的倒数等于
根据这个式子关于图片x的梯度可以用标准差反向传播计算出来。因此我们可以改变原始的随机图片x直到它在特定的CNN的某层生成了和原始图片P相同的响应。图1中五个内容重建来自初始的VGG-Network的lsquo;conv1 1rsquo; (a), lsquo;conv2 1rsquo; (b), lsquo;conv3 1rsquo; (c), lsquo;conv4 1rsquo; (d) and lsquo;conv5 1rsquo;(e)层。
在CNN的顶端对网络每层的响应我们建立了一个风格表达来计算不同的过滤器响应间的相互联系,期望是接办输入图的空间扩展(taken over the spatial extend of the input image)。这些特征间的相互联系是由Gram矩阵计算的,其中Gij(l)是向量化(vectorised)特征图谱i和j在层l上的内积:
为了生成与给定图像的样式相匹配的纹理(图1,样式重建),我们使用白噪声图像中的梯度下降来查找与原始图像的样式表示相匹配的另一个图像。这是通过最小化来自原始图像的格拉姆矩阵的条目与要生成的图像的格拉姆矩阵之间的均方距离来完成的。因此,令〜a和〜x是原始图像和生成的图像,并且A1和G1分别表示图层l中的样式。那么该层对全部损失的贡献就是
全部的损失是
在这里wl是每一层在total loss中所占的权值。El的导数可以用解析的方法计算出来:
El在更低层的导数可以很轻易地用标准差反向传播计算出来。图1中五个风格的重构是通过匹配在lsquo;conv1_1rsquo; (a), lsquo;conv1_1rsquo; and lsquo;conv2_1rsquo;(b), lsquo;conv1_1rsquo;, lsquo;conv2_1rsquo; and lsquo;conv3_1rsquo;(c),lsquo; conv1_1rsquo;, lsquo;conv2_1rsquo;, lsquo;conv3_1rsquo; and lsquo;conv4_1rsquo; (d),lsquo;conv1_1rsquo;, lsquo;conv2_1rsquo;, lsquo;conv3_1rsquo;, lsquo;conv4_1rsquo; and lsquo;conv5_1rsquo; (e)的风格表现生成的。
为了生成混合了照片的内容和画作的风格的图片,我们共同最小化了白噪声在网络某一层到照片的内容表达的距离以及在CNN网络多层上到风格表达的距离。我们最小化的loss function是
其中alpha;和beta;分别是内容和样式重建的加权因子。对于图2中所示的图像,我们匹配层#39;conv4 2#39;上的内容表示和层#39;conv1 1#39;,#39;conv2 1#39;,#39;conv3 1#39;,#39;conv4 1#39;和#39;conv5 1#39;(wl在这些层中= 1/5,在所有其他层中w1 = 0)。比率alpha;/beta;为1times;10-3(图2B,C,D)或1times;10-4(图2E,F)。图3显示了内容和样式重建损失(沿着列)的不同相对加权的结果以及仅在层#39;conv1 1#39;(A),#39;conv11#39;和#39;conv2 1#39;(B)上匹配样式表示的结果。 #39;conv1 1#39;,#39;conv2 1#39;和#39;conv3 1#39;(C),#39;conv1 1#39;,#39;conv2 1#39;,#39;conv3 1#39;和#39;conv4 1#39;(D),#39;conv1 1#39;,#39;conv2 1#39; ,#39;conv3 1#39;,#39;conv4 1#39;和#39;c
全文共5911字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[15263],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。