英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
缓解GAN中的梯度爆炸:虚假可能是真实的
Song Tao, Jia Wanglowast;
Department of Electronic Engineering
Shanghai Jiao Tong University
{taosong, jiawang}@sjtu.edu.cn摘要
为了缓解生成对抗网络(GAN)中臭名昭著的模式崩溃现象,我们提出了一种新的GAN训练方法训练期间将假样本视为真实样本过程。 这种策略可以降低梯度值发生器接收梯度爆炸的区域发生。 我们展示了不平衡一代的过程梯度爆炸导致恶性循环问题在实践培训中,这解释了GAN的不稳定性。我们还从理论上证明了梯度爆炸可以通过惩罚辨别器输出与非常接近的真实和伪造样本的真实伪造考虑因素之间的差异来缓解这种情况。 因此,提出了具有更稳定训练过程的虚假GAN(FARGAN)。更忠实的分布。 在不同数据集上进行的实验验证了我们的理论分析。关键词:Ad Hoc移动无线网;多媒体;路由协议;跨层设计
- 介绍
尽管GAN取得了显着进步,但许多研究人员已尝试提高性能 由于GAN训练中的内在问题,例如不稳定和模式崩溃,因此从各个方面[2、23、11、21]中提取了GAN。文献[3]表明,最初的GAN目标没有提供理论上的泛化保证,并分析了神经网络距离的泛化能力。作者认为,对于低容量的鉴别器,它不能提供足够的发电机 由于缺乏检测模式崩溃的能力,因此信息难以适应目标分布。 [31]认为GAN的发电能力差来自于歧视者 在有限的训练样本上进行训练,导致生成的数据点逼近真实数据样本时过拟合,并且梯度爆炸。结果,[31]提出了 对真实样本和伪样本之间的线性插值进行零中心梯度惩罚,以提高泛化能力并防止梯度导致的模式崩溃 爆炸。最近的工作[32]从隐私保护的新角度进一步研究了泛化。
在本文中,我们重点讨论由以下原因导致的模式崩溃: 在[31]中研究了梯度爆炸,并通过更稳定的训练过程实现了更好的泛化。 我们的 贡献如下:
- 我解释不平衡的产生过程 在GAN训练中分布,并且变得越来越多, 随着训练的进行,由于梯度导致的恶性循环问题的存在,训练变得更加严重爆炸。
- 我们证明,通过区分非常接近的真实样本和伪样本之间的区别,可以有效地缓解梯度爆炸问题以及出现梯度爆炸的真实情况。
- 通过将某些假样本视为真实样本,我们提出了一种新颖的GAN训练方法(FARGAN)根据训练小批量中的鉴别器输出,有效地防止产生不平衡。对合成数据集和现实世界数据集进行的实验证明,我们的方法可以稳定训练过程并实现更忠实的分配。
在续集中,我们不加区别地使用生成的样本(数据点)和伪样本(数据点)的术语。 列表 1列出了本文其余部分中使用的一些关键符号。
列表1
- 相关工作
- 不稳定性
GAN被认为很难训练,并且经常在训练过程中扮演不稳定的角色[30]。 已经提出了各种方法来提高训练的稳定性。 许多作品通过精心设计的结构[27、15、35、6]和更好的目标[23、36、2、19]来稳定培训。 强制执行Lipschitz连续性的渐变惩罚也是提高稳定性的一个流行方向,包括[11,25,28,26]。 从理论的角度来看,[22]表明基于梯度下降的GAN优化是局部稳定的,[20]在适当的假设下证明了简化零中心梯度罚分的局部收敛。 为了更好的收敛,还研究了两个时标更新规则(TTUR)[13]和指数移动平均(EMA)[34]。
- 模式崩溃。
模式崩溃是训练GAN的另一个持续存在的基本问题,这意味着生成的样本缺乏多样性。 生成器有时可能会通过从数据分布中生成非常少的一组高概率样本来欺骗鉴别器。 最近的工作[3,4]研究了GAN的泛化能力,并表明GAN所学习的模型分布确实遗漏了大量模式。 已经提出了大量的想法来防止模式崩溃。 在[3、9、14]中应用了多个生成器,以实现更忠实的分配。 在[17,18]中,混合样本被视为判别器的输入,以传达有关多样性的信息。 最近的工作[12]从概率处理研究模式崩溃,从分布熵研究[33,7]。
- 相关工作
在原始GAN [10]中,鉴别符D最大化 以下目标:
为了防止梯度崩溃,非饱和GAN(NSGAN)[10]中的生成器G最大化
其中D通常由神经网络表示。 文献[10]表明,等式1中的最优判别器D
对于任意
随着训练的进行,pg将被推向pr。 如果G和D具有足够的容量,则当
pr = pg, 在这种情况下,D的最佳策略在要输出1/2并使且eqn1的最佳值是
在实践中通过训练数据集Dr中的有限训练示例,我们经验地使用来估计和来估计其中xi,yi分别来自Dr和生成的数据集Dg。根据[31],发生器中的模式崩溃归因于鉴别器中的梯度爆炸。 当伪数据点y0被推到真实数据点x0时,并且| D(x0)minus; D(y0)| 满足ge;,时,D在方向mu;= x0-y0上的方向导数的绝对值将接近无穷大:
在这种情况下,||nabla;y0D(y0)||处的判别器的梯度范数等于|(nabla;micro;D)x0 |。 和梯度爆炸。 由于nabla;y0D(y0)在训练小批量中的梯度超过其他模式的梯度,因此在数据点y0处的梯度爆炸会将多个伪数据点移向x0,从而导致模式崩溃。
- . 非平衡生成
从理论上讲,鉴别器在达到全局平衡时输出常数1 /2。 然而,在实践中,鉴别器通常可以轻松地区分真实样本和假样本[10,2]。 因为鉴别器未知目标分布pr,所以鉴别器将始终将Dr中的训练样本视为真实,而Dg中生成的样本则视为伪造。 即使产生分布
图1.用不同梯度惩罚训练的GAN的高斯分布的有限样本的结果以及我们的方法。 蓝色数据点代表真实样本,红色数据点代表生成的样本。 (a)(e)没有GP的NSGAN,反复进行。 100k和200k。 (b)(f)NSGAN-0GP样本,迭代。 100k和200k。 (c)(g)NSGAN-0GP插值,迭代。 100k和200k。 (d)(h)用我们的方法itgan的NSGAN-0GP-sample。 100k和200k。
pg等于目标分布pr,当分别从两个连续分布中采样时,Dr和Dg以概率1脱节([31]中的命题1)。 在这种情况下,实际上Dg被推向了Dr.样本。我们将具体解释偏离pr的不平衡分布的生成过程。
定义1:对于x0isin;Dr,y0isin;Dg,如果y0isin;Ndelta;(x0)= {y0:d(x0,y0)le;delta;,0 lt;delta;d(xi, xj),forall;xi,xjisin;Dr}。 另外,x0被称为紧密配对{x0,y0}中的过拟合源。
在Dg接近Dr的过程中,将出现多个过拟合的源。 下列命题表明,最佳经验鉴别器在所有接近对的相应真实样本和虚假样本之间的输出均不相等。
命题1:如果存在过度拟合的源,则可以很容易地将满足{{x0,y0}对的{x0,y0}上满足D(x0)-D(y0)ge;的经验鉴别符构造为仅具有O(2 dim(x))个参数的MLP。详细证明请参见附录A。 在实践中使用的鉴别器通常包含数亿个参数,它们比我们上面构造的鉴别器强大得多。 尽管[31]构造了一个判别器来区分Dr和Dg之间的所有样本,但它们使用的参数要多得多,与实际使用的参数相当,因此我们不需要区分所有样本,而只需区分一个紧密对{x0,y0}。
根据等式2,梯度范数生成器从鉴别器y0处收到一个紧密对{x0,y0}的值,可以计算为
当D(x0)-D(y0)ge;ǫ并且{x0,y0}恰好是一对紧密配对时,在y0处的生成器的梯度会爆炸,并且过度地超过其他模式的梯度。 伪样本将沿micro; = x0-y0方向移动,尤其是小批量中的其他伪样本将不会移向相应的模式,从而使不平衡的生成可见。 请参见图1a,1e中原始GAN的高斯数据集上的生成结果。 生成的分布既不覆盖目标高斯分布,也不适合Dr.中的所有真实样本。
- . 非平衡生成
在本节中,我们寻求减轻梯度爆炸问题的方法,以实现更真实的生成分布。 为了简化分析,我们从D的最后一层提取S型函数sigma;,即D(·)=sigma;(D0(·))。 紧密对{x0,y0}在y0处的生成器的梯度范数可以重写为
考虑这样一个场景:在n个实样本的集合中,x0是{m1,y2,hellip;,ym0}的过拟合源,在m个生成的样本集合中,即{x0,yi},i = 1,···,m0是紧密对。 我们对x0和{y1,y2,···,ym0}处的最佳鉴别器的输出特别感兴趣。 为简单起见,我们假设在这些感兴趣点处的鉴别器的输出不受Dr和Dg中其他样本的影响。 我们还假定鉴别器具有足够的能力以在该局部区域中实现最佳。
5.1 差异惩罚
我们首先考虑对输出的L2范数进行惩罚紧密对之间的差异,导致以下经验鉴别目标:
其中k是L2范数的权重,而C1是无关紧要的项。 将D0(x0)表示为xi;0并将D0(yi)表示为xi;i,i = 1,···,m0,等式6中的感兴趣项f(xi;0,xi;1,···,xi;m0)为
命题2假设{xi;lowast; 0,···,xi;lowast; m0}达到f(xi;0,xi;1,···,xi;m0)的最大值。 然后随着k的增加,sigma;(-xi;lowast; i)(xi;lowast; 0-xi;lowast; i)减小,并且随着m0的增加,sigma;(-xi;lowast; i)(xi;lowast; 0-xi;lowast; i)增加,forall;i= 1hellip;,m0。
详细证明请参见附录B。 因此,该生成器在该局部区域的梯度范数随差罚权重k的增加而减小,而随近对对数m0的增加(从等式5开始)而增加。
渐变惩罚:实际上,在实践中很难找到接近的对来进行相应的差值惩罚。如果我们直接惩罚D0(xi)minus;D0(yi)的L2范数,则当{xi,yi}不是近对时,yi处的梯度范数可能会更大。考虑到D0(yi)gt; D0(xi),这可能发生在xi处的接近对数大于yi处时,直接惩罚将使D0(yi)降低,并使yi处的梯度范数从等式5开始。 。因此,在实践中,我们可以强制形式为||(nabla;D0)v ||| 2的零中心梯度罚分,以稳定对于近似对的鉴别器输出,其中v可以是真实或假样本。尽管远非完美,但与图1a,1e相比,图1b,1f产生了更真实的结果,但未添加梯度损失。为防止梯度爆炸,[31]提出了另一种形式的零中心梯度惩罚||(nabla;D0)v || 2,其中v是真实样本与伪样本之间的线性插值。但是,我们认为这不是填补这一空白的非常有效的方法。首先,内插的结果可能不位于supp(pr)cup;supp(pg)中。此外,对于任意一对真实样本和伪样本,尤其是在高维情况下,它们之间线性插值位于存在紧密对的位置的概率接近于0。
恶性循环。 过度拟合源x0附近的梯度爆炸会导致多个伪样本移向x0。 然后,更紧密的对会导致更严重的梯度爆炸问题,从而形成恶性循环。 这部分解释了GAN训练过程的不稳定性,尤其是在训练的后期,可以看到类似的生成样本。 与迭代100k的图1a,1b,1c相比,迭代200k的图1e,1f,1g具有更多的不平衡生成,并且随着训练的进行会生成更多类似的样本。
5.2 虚假的考虑
基于上面的讨论,我们在m0个伪样本{y1,y2,···,ym0}上添加了按真实情况考虑,从而实现了以下经验鉴别目标:
其中lambda;是将假货视为真实的权重,而C2是无关紧要的项。 等式8中的感兴趣项h(xi;0,xi;1,···,xi;m0)为
命题3假设{xi;lowast; 0,···,xi;lowast; m0}达到h的最大值(xi;0,xi;1,···,xi;m0)。 然后随着lambda;的增加,sigma;(minus;xi; lowast; i)(xi;lowast; 0-xi;lowast; i)减小,并且当lambda;→infin;时,sigma;(minus;xi; lowast; i)(xi;lowast; 0-xi;lowast; i)→0,forall; i = 1, · · · , m0.
详细证明请参见附录C。 通过将假货视为真实货品,也可以缓解该局部地区的梯度爆炸问题。 从理论上讲,当假真实项的权重趋于无穷大时,此处的生成器的梯度范数变为0,从而完全解决了相关问题,同时使鉴别器失去了在该局部区域中区分样本的能力。 在实践中, 足以缓解此处的渐变,使其与小批量中的其他渐变具有可比性,因此我们不需要 过度权衡假货
缓解恶性循环。 回忆一下由梯度爆炸引起的恶性循环。 当更多的近似对出现在一个过拟合源处时,从等式9开始,假真实项也会变大,从而缓解了进一步的梯度爆炸问题。 参见图1d,1h中应用假真实考虑的结果。 即使经过长时间的培训,也会产生忠实的分布。
5.3 执行
在本节中,我们将在实际训练中基于梯度罚分给出仿冒真实GAN(FARGAN)的具体实现。 对于在判别器训练过程中的一个小批量中的原始N个真实样本和M个伪样本,我们确定了真实样本的总数N,包括原始N1个真实样本和
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[262614],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。