英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
基于样式的生成式对抗网络生成器架构
摘要
我们借鉴样式迁移论文提出了一种新的生成器架构来生成对抗式神经网络,它可对高级属性(如人类的姿势、身份)进行自动学习和无监督分割,且生成图像还具备随机变化(如雀斑、头发),该架构可以对图像合成进行直观的、规模化的控制,在传统的分布质量指标上达到了当前的最优,展示了更好的插值属性,并且能够并且更好的处理隐式变量。为了评价插值质量和解耦合的效果,我们提出了两种新的,适用于任何生成器架构的自动化方法。最后,我们介绍一个新的,高度多样化和高质量的人脸数据集。
- 介绍
近些年来,我们可以看到通过生成的方法产生的图像的分辨率和质量都在快速的提升[29,43,5],生成式对抗神经网络[21]则更是如此。然而目前这些生成器仍然像个黑盒子一般工作,尽管近年来也有人致力于解释相关的理论[3],但目前对于图像合成过程(例如初始状态随机特征)的理解仍然欠缺。隐式空间的属性同样很少被理解,目前来说隐式空间的插值[12,50,35]并没有提出很权威且普适的衡量方法来和其他生成器对比。
有感于风格迁移相关论文[26],我们重新设计了生成器架构,通过一个新颖的方法来控制整个图像合成过程。我们的生成器开始于一个通过学习得来的输入常量并且在每一个卷积层都基于隐式码来调整它的图像风格,因此可以根据不同的规模直接控制图像特征的强度。我们在网络中直接附加入噪声,这种结构变化导致高级属性(例如,姿势,身份)与生成的图像中的随机变化(例如,雀斑,头发)自动的,无监督的分离,并且实现直观的特定规模的混合和插值操作。没有通过任何方法修改判别器和损失函数相关内容,因此,我们的工作与正在进行的关于GAN损失函数,正则化和超参数的讨论[23,43,5,38,42,34]是正交的。
我们的生成器将输入的隐式码嵌入到隐式空间中间,这对变化的因素在网络中是如何表现出来的产生了深远的影响。输入的隐式空间必须遵循训练数据的概率密度,我们认为这会导致某种程度的不可避免的耦合。我们中间的隐式空间不受限制,因此可以从这种耦合中解脱出来。由于以前估算隐式空间解开耦合程度的方法并不直接适用于我们的情况,我们提出了两个新的自动指标——感知路径长度和线性可分性,用于度量生成器的这些方面。使用这些指标,我们发现,与传统的生成器架构相比,我们的生成器表现的对于不同因素的变化更线性并更少耦合。
最后,我们提出了一个新的人脸数据集(Flickr-Faces-HQ,FFHQ),它提供了更高的质量,并且涵盖了比现有高分辨率数据集(附录A)更广泛的变化。我们已将此数据集与我们的源代码和预先训练好的网络一起公开。随附的视频可在同一链接下找到。
- 基于样式的生成器
一般来说,传统的生成器架构的隐式码通过输入层(即前馈网络的第一层)提供给生成器(图1a)。我们与这种传统的生成器的区别在于:我们省略了输入层并以一个学习来的常量进行替换(图1b,右)。在隐式空间——中给出一个隐式码——z,一个非线性映射网络产生了wisin;(图1b,左)。为简单起见,我们设置了所有空间的维数都为512,映射使用8层MLP实现,我们将在4.1节中进行分析。然后,学习的仿射变换将w特化为样式,其用于控制在合成网络的每个卷积层之后的自适应实例归一化(AdaIN)[26,16,20,15]。AdaIN操作的定义如下:
其中每个特征映射分别标准化,然后使用样式y中的相应标量分量进行缩放和偏置。因此,y的维度是该层上的特征映射的数量的两倍。
图1.不同于传统的生成器[29]仅通过输入层提供隐式码,我们首先将输入映射到中间的隐式空间——W,然后通过每个卷积层的自适应实例归一化(AdaIN)来控制生成器。在评估非线性之前,在每次卷积之后添加高斯噪声。这里“A”代表学习的仿射变换,“B”将学习的每个通道的缩放因子应用于噪声输入。映射网络f由8层组成,合成网络g由18层组成——每个分辨率(4sup2;-1024sup2;)有两个。使用单独的1times;1卷积将最后一层的输出转换为RGB,类似于Karras等人的论文[29]。我们的生成器总共有26.2M可训练参数,而传统生成器则为23.1M。
比较我们的方法和样式迁移方法,我们从矢量w而不是示例图像计算空间不变的样式y。我们选择为y使用“style”一词,是因为类似的网络架构已经用于前馈式传输[26],无监督的图像到图像的转换[27]和域的混合[22]。与更一般的特征变换相比[36,55],由于其效率和简洁的表现,AdaIN特别适合我们的目的。
表1.每种生成器设计的FID(越低越好)。在本文中,我们使用从训练集中随机抽取的50,000张图像来计算FID,并报告在训练过程中遇到的最低值。
最后,我们通过引入显式噪声输入为我们的发生器提供直接的方法来生成随机细节。这些是由不相关的高斯噪声组成的单通道图像,我们将专用噪声图像馈送到合成网络的每一层。使用学习到的完美比例因子将噪声图像广播到所有特征图,然后将其添加到相应卷积的输出中,如图1b所示。添加噪声输入的含义在第3.2节和第3.3节中讨论。
2.1生成图片的质量
在研究我们的生成器的特性之前,我们通过实验证明重新设计不会影响图像质量,但事实上,这种设计会大大改善图片的质量。表1给出了CELEBA-HQ[29]和我们新的FFHQ数据集(附录A)中各种生成器架构的FID值[24]。其他数据集的结果在附录E中给出。我们的基线配置(A)是Karras等人的ProgressiveGAN设置[29],除非另有说明,否则我们从中继承网络和所有超参数。我们首先通过使用双线性上/下采样操作[62],更长的训练和调整的超参数来切换到改进的基线(B)。附录C中包含了训练设置和超参数的详细说明。然后,我们通过添加映射网络和AdaIN操作(C)进一步改进了这个新基线,并且令人惊讶地发现网络不再受益于将隐式码输入到第一个卷积层中。因此,我们通过移除传统的输入层并从学习到的4times;4times;512恒定张量(D)开始图像合成来简化架构。我们发现这种架构的出色之处在于,即使只通过控制AdaIN操作的风格样式接收输入,合成网络也能够产生有意义的结果。
最后,我们引入了进一步改善结果的噪声输入(E),以及对相邻样式进行去相关的新型混合正则化(F),对生成的图像进行更精细的控制(第3.1节)。
我们使用两种不同的损失函数来评估我们的方法:对于CELEBA-HQ,我们使用WGAN-GP[23],而FFHQ在配置A下使用WGAN-GP,并在配置B-F下使用正则化[42,49,13]进行非饱和损失[21]计算。我们发现这些选择可以产生最佳效果,我们的贡献不会改变损失函数。
我们观察到基于样式的生成器(E)相比传统生成器(B)显著提高了FID,几乎达到了20%,证实了在平行工作中进行的大规模ImageNet测量[6,5]。图2显示了使用我们的生成器从FFHQ数据集生成的一组未经验证的新图像。正如FID所证实的那样,平均质量很高,甚至眼镜和帽子等配件也能成功合成。对于这个图,我们使用所谓的截断技巧避免了从的极端区域采样[40,5,32]-附录B详述了为何在而不是中执行该技巧。请注意,我们的生成器允许仅选择性地将截断应用于低分辨率,以便不影响高分辨率细节。
本文中的所有FID都是在没有截断技巧的情况下计算出来的,我们仅在图2和视频中用于说明目的。所有图像均以1024sup2;分辨率生成。
图2.由基于样式的生成器(configF)和FFHQ数据集生成的未经验证的图像集。这里我们使用截断技巧[40,5,32]的变体,分辨率为4sup2;-32sup2;,psi;=0.7。请参阅随附的视频以获得更多结果。
2.2现有技术
关于GAN架构的大部分工作都集中在通过例如使用多个判别器[17,15],多分辨率判别[58,53]或自注意力机制[61]来改进判别器。生成器侧的工作主要集中在输入隐式空间的精确分布[5]或通过高斯混合模型[4],聚类[46]或优化凸性[50]对输入隐式空间进行调整。
最近的条件生成器通过单独的嵌入网络将类别标识符提供给生成器中大量的层[44],而隐式的仍然通过输入层提供。一些作者已经考虑将隐式码的一部分送到多个生成器的层中[9,5]。在平行工作中,陈等人在[6]使用AdaIN实现的“自我调制”发生器,与我们的工作类似,但不考虑中间的隐式空间或噪声输入。
3.基于样式的生成器的属性
我们的生成器架构可以通过对样式的特定尺度的修改来控制图像合成。我们可以将映射网络和仿射变换视为从学习的分布中为每种样式绘制样本的方法,并且将合成网络视为基于样式集合生成新的图像的方式。每种样式的效果都由网络的某一区域限制,我们可以预期修改样式集合的特定子集仅影响图像的某些方面。
为了了解这种区域性限制的原因,让我们考虑AdaIN如何操作(公式1)。首先将每个通道归一化为零均值和单位方差,然后才根据样式应用比例和偏差。根据样式的要求,新的每通道统计数据修改了后续卷积操作的特征的相对重要性,但由于归一化它们不依赖于原始统计数据。因此,每个样式在被下一个AdaIN操作覆盖之前仅控制一个卷积。
3.1风格混合
为了进一步鼓励样式进行区域化,我们采用混合正则化,其中给定的百分比是在训练期间使用两个随机隐式码而不是一个隐式码生成的图像的。在生成这样的图像时,我们只需在合成网络中随机选择的点从一个隐式码切换到另一个隐式码——我们称这种操作为样式混合。具体来说,我们通过映射网络运行两个隐式码z1,z2,并使相应的w1,w2控制样式,使得w1在交叉点之前应用,w2在之后应用。这种正则化技术可以防止网络假设相邻的样式是相关的。
图3.通过使一个隐式码(源)生成的样式覆盖另一个(目标)的样式的子集,可视化生成器中样式的效果。覆盖图层的样式或对应粗糙的空间分辨率(4sup2;-8sup2;),从源复制高级方面,如姿势,发型,面部形状和眼镜,同时目标的所有颜色(眼睛,头发,灯光)和更精细的面部特征均保留。如果我们改为复制中间层(16sup2;-32sup2;)的样式,我们将从源继承较小比例的面部特征,发型,打开/关闭的眼睛,同时保留来自目标的姿势,面部形状和眼镜。最后,复制与精细分辨率(64sup2;-1024sup2;)相对应的样式带来来自源的颜色方案和微观结构
表2.通过对不同百分比的训练样例进行混合正则化训练所得网络的FFHQ中的FID。在这里,我们主要对通过随机选择1到4个隐式点和它们之间的交叉点训练的网络进行测试。混合正则化显著改善了对这些不利操作的耐受性。标签E和F参见表1中的配置。
表2显示了在训练期间启用混合正则化如何显著改善区域化,这个结果由在测试时多种潜在因素混合的情况下通过大幅改进的FID揭示出来。图3给出了通过混合不同尺度的两个隐式码合成的图像的例子。我们可以看到每个样式子集控制图像的一部分有意义的高级属性。
图4.随机变化的例子。(a)两个生成的图像。(b)放大输入噪声的不同实现。虽然整体外观几乎相同,但个别头发的放置方式却截然不同。(c)100个不同实现中每个像素的标准偏差,突出显示图像的哪些部分受噪声影响。主要区域是头发,轮廓和背景的一部分,但眼睛反射也有有趣的随机变化。身份和姿势等整体方面不受随机变化的影响。
3.2随机变化
人类肖像中有许多方面可以被视为随机的,例如毛发,胡须,雀斑或皮肤毛孔。只要它们遵循正确的分布,所有的这些都可以随机化而不影响我们对图像的感知。
让我们考虑一下传统生成器如何实现随机变化。鉴于网络的唯一输入是通过输入层,网络需要发明一种方法,以便在需要时从早期激活中生成空间变化的伪随机数。这消耗网络容量而且隐藏所生成信号的周期性是困难的——并且并非总是成功的,如生成的图像中常见的重复模式所证明的。我们的架构通过在每次卷积后对每个像素添加噪声来完全避免这些问题。
图5.噪声输入在生成器不同层的影响。(a)噪音适用于所有层。(b)没有噪音。(c)仅有精细层的噪音(642-10242)。(d)仅粗糙层的噪音(4sup2;-32sup2;)。我们可以看到,人为地忽略噪音会导致无意义的“绘画”外观。粗糙的噪音会导致大规模的头发卷曲和更大的背景特征,而细微的噪音会带来更细的卷发,更细致的背景细节和皮肤毛孔。
图4显示了使用具有不同噪声实现的发生器产生的相同底层图像的随机实现。我们可以看到,噪声仅影响随机方面,使整体构成和身份等高级方面完整无缺。图5进一步说明了将随机变化应用于不同子层的效果。由于这些效果最好在动画中看到,请参阅随附的视频,以了解如何更改一层噪声输入导致匹配尺度的随机变化。
我们发现有趣的是,噪声的影响似乎在网络中紧密地区域化。我们假设在生成器的任何一点,都有压力尽可能快的引入新的内容,而我们的网络创建随机变化的最简单方法是依靠提供的噪声。每一层都有一
全文共21314字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[332],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。