英语原文共 14 页
StackGAN :逼真的图像合成与堆叠生成对抗网络
Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Senior Member, IEEE,
Xiaogang Wang, Member, IEEE, Xiaolei Huang, Member, IEEE, Dimitris N. Metaxas, Fellow, IEEE
摘要 - 虽然生成对抗网络(GAN)在各种任务中取得了显着的成功,但它们仍然面临着生成高质量图像的挑战。在本文中,我们提出了堆叠生成对抗网络(StackGAN),旨在生成高分辨率照片般逼真的图像。首先,我们提出了一个两阶段生成对抗网络架构StackGAN-v1,用于文本到图像的合成。 Stage-I GAN基于给定的文本描述绘制对象的原始形状和颜色,从而产生低分辨率图像。 Stage-II GAN将Stage-I结果和文本描述作为输入,并生成具有照片般逼真细节的高分辨率图像。其次,提出了一种先进的多阶段生成对抗网络体系结构StackGAN-v2,用于条件和无条件生成任务。我们的StackGAN-v2由树状结构中的多个发生器和鉴别器组成;从树的不同分支生成对应于相同场景的多个尺度的图像。StackGAN-v2通过联合逼近多个分布,显示出比StackGAN-v1更稳定的训练行为。
大量实验表明,所提出的堆叠生成对抗网络在生成照片般逼真的图像方面明显优于其他最先进的方法。
索引词 - 生成模型,生成对抗网络(GAN),多级GAN,多分布近似,照片般逼真的图像生成,文本到图像的合成。
1引言
生成对抗网络(GAN)是由Goodfellow等人提出的生成模型。[11]。在原始设置中,GAN由生成器和鉴别器组成,这些生成器和鉴别器都经过相互竞争的目标训练。 对发生器进行训练以产生朝向真实数据分布的样本以欺骗鉴别器,同时优化鉴别器以区分真实样本与真实数据分布和由发生器产生的假样本。 最近,GAN在模拟复杂的数据分布方面表现出了巨大的潜力,例如文本[5],图像[28]和视频[44]。尽管取得了成功,但已知GAN模型很难训练。 训练过程通常不稳定,对超参数的选择很敏感。 一些论文认为,不稳定性部分是由于数据分布的不相交支持和隐含的模型分布[38],[1]。当训练GAN以生成高分辨率(例如,256times;256)图像时,该问题更严重,因为高分辨率图像分布和模型分布在高维空间中共享支持的机会非常少。此外,GAN训练的常见故障现象是模式崩溃:许多生成的样本包含相同的颜色或纹理模式。
为了稳定GAN训练过程并改善样本多样性,几种方法试图通过提出新的网络来应对挑战体系结构[28],引入启发式技巧[36]或修改学习目标[2],[4]。但是大多数先前的方法被设计为近似单个数据分布(例如,相同大小的图像)。由于在非常高维的空间中由于模型和数据分布之间的罕见重叠而难以直接近似高分辨率图像数据分布,因此大多数先前的方法限于生成低分辨率图像。在这项工作中,我们观察到,现实世界的数据,尤其是自然图像,可以在不同的尺度上建模[34]。可以将多分辨率数字化图像视为来自具有不同采样率的相同连续图像信号的采样。此后,多个离散尺度的图像分布是相关的。除了不同尺度的多个分布之外,与或不与辅助条件变量(例如,类标签或文本描述)耦合的图像可被视为条件分布或无条件分布,其也是相关分布。受这些观察的启发,我们认为GAN可以通过将困难的生成任务分解为具有渐进目标的子问题来稳定地训练以生成高分辨率图像,即我们建议使用堆叠生成对抗网络(StackGAN)来模拟一系列从低维到高维的数据分布。
首先,我们提出了一个两阶段生成对抗网络StackGAN-v1,通过草图细化过程从文本描述中生成图像[50]。 我们的Stage-I GAN首先生成低分辨率图像。 在Stage-I GAN的顶部,我们堆叠Stage-II GAN以生成高分辨率(例如,256 256)图像。 通过再次调整Stage-I结果和文本,Stage-II GAN学习捕获Stage-I GAN省略的文本信息并绘制更多细节。 此外,我们提出了一种新的调节增强(CA)技术,以促进潜在调节歧管的平滑[50]。 它允许调节流形中的小的随机扰动并增加合成图像的多样性。
其次,我们提出了一种先进的多阶段生成对抗网络体系结构StackGAN-v2,用于条件和无条件生成任务。 StackGAN-v2有多个生成器,它们以树状结构共享大部分参数。如图2所示,网络的输入可以被视为树的根,并且从树的不同分支生成多尺度图像。最深分支处的发生器的最终目标是生成照片般逼真的高分辨率图像。中间分支的生成器具有生成从小到大的图像以帮助实现最终目标的渐进目标。整个网络被联合训练以近似不同分支处的不同但高度相关的图像分布。建模一个分布的积极反馈可以改善他人的学习。对于条件图像生成任务,我们提出的StackGAN-v2同时近似于无条件图像分布和以文本描述为条件的图像分布。这两种类型的分布是相互补充的。此外,我们提出了一个颜色一致性正则化项,以指导我们的生成器在不同尺度上生成更多的连贯样本。正则化提供了额外的约束以促进多分布近似,这在无条件设置中特别有用,其中在图像和输入噪声矢量之间不存在实例监督。
总之,所提出的Stacked Generative Adversarial Networks有三个主要贡献。 (i)我们的StackGANv1首次使用文本描述中的照片般逼真的细节生成256x256分辨率的图像。(ii)提出了一种新的调节增强技术来稳定条件GAN的训练并改善生成的多样性样本。(iii)我们的StackGAN-v2通过联合逼近多个分布,进一步提高了生成图像的质量并稳定了GAN的训练。在本文的其余部分,我们将分别在第2节和第3节中讨论相关工作和预备。然后,我们在第4节介绍StackGAN-v1 [50],在第5节介绍StackGAN-v2。在第6节中,进行了大量实验来评估所提出的方法。最后,我们在第7节得出结论.StackGANv1的源代码可以在https://github.com/hanzhanggit/StackGAN获得,StackGAN-v2的源代码可以在https://github.com/hanzhanggi /StackGAN-V2获得。
2 相关工作
生成图像建模是计算机视觉中的基本问题。 随着深度学习技术的出现,这方向取得了显着进展。变分自动编码器(VAE)[17],[33]用概率图形模型制定了问题,其目标是最大化数据可能性的下限。 利用神经网络来模拟像素空间的条件分布的自回归模型(例如,PixelRNN)[40]也产生了吸引人的合成图像。最近,Generative Adversarial Networks(GANs)[11]已经展示了用于生成更清晰图像的有希望的可能。 但是训练不稳定性使得GAN模型难以生成高分辨率(例如,256 256)图像。 现在已经提出了很多工作来稳定训练并提高图像质量[28],[36],[23],[51],[4],[25]。
基于这些生成模型,还研究了条件图像生成。大多数方法使用简单的条件变量,如属性或类标签[47],[41],[6],[27]。还有以图像为基础的工作来生成图像,包括照片编辑[3],[52],域转移[39],[15]和超分辨率[38],[19]。然而,超分辨率方法[38],[19]只能向低分辨率图像添加有限的细节,并且不能像我们提出的StackGAN那样纠正大的缺陷。最近,已经开发了几种方法来从非结构化文本生成图像。 Mansimov等。 [21]通过学习估计文本和生成画布之间的对齐来构建AlignDRAW模型。里德等人[32]使用条件PixelCNN使用文本描述和对象位置约束生成图像。 Nguyen等[25]使用近似Langevin采样方法生成以文本为条件的图像。然而,他们的采样方法需要低效的迭代优化过程。Reed等[31]用有条件的GAN根据文字描述成功地为鸟类和花朵生成合理的64 x64个图像。他们的后续工作[29]能够通过在对象部件位置上使用额外的注释来生成128 x128个图像。
鉴于对自然图像细节建模的困难,已经提出许多工作来使用多个GAN来改善样本质量。 Denton等人[7]在拉普拉斯金字塔框架内构建了一系列GAN。在金字塔的每个级别,以前一阶段的图像为条件生成残差图像,然后将其添加回输入图像以产生下一阶段的输入.Wang等人[46]利用结构GAN和样式GAN来合成室内场景的图像。杨等人[48]利用分层递归GAN将分解后的图像生成为前景和后台生成。黄等人[13]增加了几个GAN来重建预训练的判别模型的多层次表示。但他们仍然无法生成具有照片般逼真细节的高分辨率图像。 Durugkar等人[9]使用多个鉴别器和一个发生器来增加发生器接收有效反馈的机会。然而,他们框架中的所有鉴别器都经过训练以接近单个数据分布而不是多个分布。
3 正文前书页
生成性对抗网络(GAN)[11]由两个模型组成,这两个模型经过交替训练以相互竞争。 生成器G被优化以通过生成识别器D难以与真实图像区分的图像来再现真实数据分布pdata。 同时,D被优化以区分由G生成的真实图像和合成图像。总体而言,训练过程类似于具有以下目标函数的双人最小 - 最大游戏,
其中x是来自真实数据分布pdata的真实图像,z是从分布pz采样的噪声向量(例如,均匀或高斯分布)。
条件GAN [10],[24]是GAN的扩展,其中两个发生器和鉴别器接收额外的条件变量c,产生G(z; c)和D(x; c)。 该公式允许G生成以变量c为条件的图像。
4 STACKGAN-V1:两阶段生成对抗网络
为了生成具有照片般逼真细节的高分辨率图像,我们提出了一个简单而有效的两阶段生成对抗网络StackGAN-v1。 如图1所示,它将文本到图像的生成过程分解为两个阶段.Stage-I GAN根据给定的文本描述绘制对象的原始形状和基本颜色,并从随机噪声中绘制背景布局矢量,产生低分辨率图像。Stage-II GAN校正来自Stage-I的低分辨率图像中的缺陷,并通过再次读取文本描述来完成对象的细节,从而产生高分辨率的照片般逼真的图像。
4.1调节增强
图1 StackGAN-v1的架构。 Stage-I生成器通过从给定文本绘制对象的粗略形状和基本颜色并从随机噪声向量绘制背景来绘制低分辨率图像。 在Stage-I结果的条件下,Stage-II发生器可以纠正缺陷并为Stage-I结果添加引人注目的细节,从而产生更逼真的高分辨率图像。
如图1所示,文本描述t首先由编码器编码,产生文本嵌入。在以前的工作[31],[29]中,文本嵌入被非线性转换以生成条件潜在变量作为生成器的输入。然而,用于文本嵌入的潜在空间通常是高维的(gt; 100维)。由于数据量有限,它通常会导致潜在数据流形的不连续性,这对于学习生成器是不可取的。为了缓解这个问题,我们引入了一种调节增强技术来产生额外的调节变量^ c。与[31],[29]中的固定条件文本变量c相比,我们从独立的高斯分布中随机抽样潜在变量^ c,其中均值和对角协方差矩阵是文本嵌入的函数。在给定少量图像 - 文本对的情况下,所提出的调节增强产生更多训练对,因此鼓励沿着调节流形的小扰动的鲁棒性。为了进一步加强调节流形的平滑性并避免过度拟合[8],[18],我们在训练期间将以下正则化项添加到生成器的目标中,
(2)
这是标准高斯分布和调节高斯分布之间的Kullback-Leibler散度(KL散度)。调节增强中引入的随机性有利于将文本建模到图像平移,因为相同的句子通常对应于具有各种姿势和外观的对象。
4.2阶段-I GAN
我们不是直接生成以文本描述为条件的高分辨率图像,而是简化任务,首先使用Stage-I GAN生成低分辨率图像,该图像侧重于仅绘制粗略形状和正确的对象颜色。
让我们来看看给定描述的文本嵌入,这是由本文中预训练的编码器[30]生成的。 用于文本嵌入的高斯调节变量^ c0从中采样,以获得变量的含义。 在^ c0和随机变量z上进行条件化,Stage-I GAN通过交替地最大化Eq.(3)中的来训练鉴别器D0和发生器G0(3)并最小化方程式中的.(4),
其中真实图像I0和文本描述t来自真实数据分布pdata。 z是从给定分布pz中随机采样的噪声向量(本文中的高斯分布)。是一个正则化参数,用于平衡方程式中的两个项。 我们为所有实验设置= 1。 使用[17]中引入的重新参数化技巧,和都与网络的其余部分一起学习。
模型架构.
对于生成器G0,为了获得文本调节变量^ c0,文本嵌入首先被馈送到完全连接的层以生成和(是的对角线中的值),用于高斯分布。 然后从高斯分布中对^ c0进行采样。 我们的Ng维条件向量^ c0由 (其中是元素乘法,)计算。 然后,^ c0与Nz维噪声矢量连接,以通过一系列上采样块产生图像。
对于鉴别器D0,首先使用完全连接的层将文本嵌入压缩到Nd维,然后在空间上复制以形成张量。 同时,图像通过一系列下采样块馈送,直到它具有空间维度。然后,图像滤波器图沿着信道维度与文本张量连接。 得到的张量进一步馈送到1x1卷积层,以共同学习图像和文本上的特征。 最后,使用具有一个节点的完全连接的层来产生决策分数。
4.2阶段-II GAN
Stage-I GAN生成的低分辨率图像通常缺少生动的对象部分,可能会有形状扭曲。 在第一阶段也可能省略文本中的一些细节,这对于生成照片般逼真的图像至关重要。 我们的Stage-II GAN基于Stage-I GAN结果构建,以生成高分辨率图像。 它取决于低分辨率图像以及文本嵌入,以纠
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。