英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
生成式对抗网络
摘要:我们提出一个通过对抗过程来估计生成模型的新框架,在这个框架中我们同时训练两个模型:生成模型G——用来捕获数据分布,判别模型D——用来估计样本来自训练数据而不是G的概率,G的训练过程目的是最大化D产生错误的概率。这个框架相当于一个极小化极大的双方博奔。在任意函数G和D的空间中存在唯一的解,此时G恢复训练数据分布,并且D处处都等于1/2。在G和D由多层感知器构成的情况下,整个系统可以用反向传播进行训练。在训练或生成样本时不需要任何马尔科夫链或展开的近似推理网络。实验通过对生成的样本定性和定量评估来展示这个框架的潜力。
1.介绍
深度学习的目标是发现丰富的分层模型,这些模型代表了在人工智能领域的概率分布,如超自然图像、包含语音的音频波形和自然语言语料库中的符号等。到目前为止,深度学习中最成功的模型是判别模型,通常它们将高维丰富的感知器输入映射到类别标签。这些显著的成功主要是基于反向传播和丢弃算法来实现的,特别是具有极其良好梯度的分段线性单元。由于在最大似然估计和相关策略中会遇见许多难以解决的概率计算困难,而且在生成上下文时很难利用使用分段线性单元的好处,导致深度生成模型的影响很小。我们提出一个新的生成模型估计程序来避开这些难题。
在提到的对抗网络框架中,生成模型对抗着一个对手:一个通过学习去判别样本是来自模型分布还是数据分布的判别模型。生成模型可以被认为是一个伪造团队,试图产生假货并在不被发现的情况下使用它,而判别模型类似于警察,试图检测假币。在这个游戏中的竞争驱使两个团队不断改进他们的方法,直到真假难分为止。
针对多种模型和优化算法,这个框架可以提供特定的训练方法。在这篇文中。我们探讨了生成模型将随机噪声传输到多层感知机来生成样本的特例,同时判别模型也是通过多层感知机实现的。我们称这个特例为对抗网络。在这种情况下,我们可以仅使用非常成熟的反向传播和丢弃算法训练两个模型,生成模型在生成样本时只使用前向传播算法。并且不需要近似推理和马尔可夫链作为前提。
2.相关工作
含隐变量的有向图模型可以由含隐变量的无向图模型替代,例如受限波兹曼机(RBM),深度波兹曼机(DBM)和它们很多的变种。这些模型之间的相互影响可以表达为非标准化的势函数的乘积,再通过随机变量的所有状态的全局整合来标准化。这个数量(配分函数)和它的梯度的估算是很棘手的,尽管他们能够使用马尔可夫链和蒙特卡罗(MCMC)算法来估计,同时依靠MCMC算法的混合也会引发一个严重的问题。
深度置信网络(DBN) 是一个包含一个无向层和若干有向层的混合模型。当使用快速逐层训练法则时,DBNS会引发无向模型和有向模型相关的计算难题。
已经有人提出不采用似然函数的估计或约数的替代准则,例如分数匹配和噪音压缩评估(NCE)。他们都需要知道先验概率密度知识以分析指定一个规范化的常量。请注意,许多有趣的带有一些隐层变量的生成模型生成模型(如DBN和DBM),它们甚至不需要难以处理的非标准化的概率密度先验知识。一些模型如自动编码降噪机和压缩编码的学习准则与分数匹配在RBM上的应用非常相似。在NCE中,使用一个判别训练准则来拟合一个生成模型。然而,生成模型常常被用来判别从一个固定噪音分布中抽样生成的数据,而不是拟合一个独立的判别模型。由于NCE使用一个固定的噪音分布,仅仅是从观测变量的一个小子集中学习到一个大致正确的分布后,模型的学习便急剧减慢。
最后,一些技术并没有用来明确定义概率分布,而是用来训练一个生成器来从期望的分布中拟合出样本。这个方法优势在于这些机器学习算法能够设计使用反向传播算法训练。这个领域最近比较突出的工作包含生成随机网络(GSN) ,它扩展了广义的除噪自动编码器:两者都可以看作是定义了一个参数化的马尔可夫链,即一个通过执行生成马尔科夫链的一个步骤来学习机器参数的算法。同GSNs 相比,对抗网络不需要使用马尔可夫链来采样。由于对抗网络在生成阶段不需要循环反馈信息,它们能够更好的利用分段线性单元,这可以提高反向传播的性能。更多利用反向传播算法来训练生成器的例子包括变分贝叶斯自动编码和随机反向传播。
3.对抗网络
当模型是多层感知器时,对抗模型框架是最直接的。为了学习生成器关于数据x上的分布,我们定义输入噪声的先验变量,用来代表数据空间的映射。这里G是一个由含有参数的多层感知机表示的可微函数。我们再定义了一个多层感知机用来输出一个单独的标量。D(x) 代表x来自于真实数据分布而不是的概率,我们训练D来最大化分配正确标签的概率,不管数据是来自于训练样例还是G生成的样例,我们同时训练G来最小化。换句话说,D和G的训练是关于值函数V(G, D)的极小化极大的二人博弈问题:
(1)
在下一节中,我们提出了对抗网络的理论分析,本质上表明基于训练准则可以恢复数据生成分布,当给予G和D足够的容量,即在非参数极限。如图1展示了该方法的一个非正式却更加直观的解释。实际上,我们必须使用迭代数值方法来实现这个过程。在训练的内部循环中完成D的优化是禁止的,并且有限的数据集将导致过拟合。相反,我们在优化D的k个步骤和优化G的一个步骤之间交替。只要G变化足够慢,可以保证D保持在其最佳解附近,这个策略类似SML/PCD training。该过程如算法1所示。
实际上,方程1可能无法为G提供足够的梯度来学习。训练初期,当G的生成效果很差时,D会以高置信度来拒绝生成样本,因为它们与训练数据明显不同。因此,饱和。因此我们选择最大化而不是最小化来训练G,该目标函数使G和D的动力学稳定点相同,并且在训练初期,该目标函数可以提供更强大的梯度。
4.理论结果
当时,生成器G隐式的定义概率分布为为G(z)获得的样本的分布。因此,如果模型容量和训练时间足够大时,我们希望算法1收敛为的良好估计量。本节的结果是在非参数设置下完成的,例如,我们通过研究概率密度函数空间中的收敛来表示具有无限容量的模型。
我们将在4.1节中显示,这个极小化极大问题的全局最优解为。我们将在4.2节中展示使用算法1来优化等式1,从而获得期望的结果。
4.1全局最优:
首先任意给生成器G,考虑最优判别器D。
Figure 1:在训练生成对抗网络时,同时更新判别分布(D,蓝色虚线)使D能区分数据生成分布 (黑色虚线)中的样本和生成分布 (G,绿色实线)中的样本。下面的水平线为均匀采样z的区域,上面的水平线为x的部分区域。朝上的箭头显示映射x=G(z)如何将非均匀分布作用在转换后的样本上。G在高密度区域收缩,且在 的低密度区域扩散。(a)考虑一个接近收敛的对抗的模型对: 与相似,且D是个部分准确的分类器。(b)算法的内循环中,训练D来判别数据中的样本,收敛到: 。(c)在G的1次更新后,D的梯度引导G(z)流向更可能分类为数据的区域。(d)训练若干步后, 如果G和D性能足够,它们接近某个稳定点并都无法继续提高性能,因为此时。判别器将无法区分训练数据分布和生成数据分布,即D(x)= 。
Algorithm 1生成对抗网络的minibatch随机梯度下降训练。判别器的训练步数,k,是一个超参数。在我们的试验中使用k= 1,使消耗最小。
for number of training iterations do
for k steps do
●在噪声先验分布为的m个噪声样本{,....,}中采一个minibatch。
●在数据分布为的m个训练祥本{,....,}中采一个minibatch。
●通过随机梯度上开来更新判别器:
end for
●在噪声先验分布为的m个噪声样本{,....,}中采一个minibatch。
●通过随机梯度下降来更新生成器:
end for
基于梯度的更新可以使用任何标准的基于梯度的学习准则。我们在实验中使用了动量准则。
Proposition1. 固定G,最优判别器D为:
(2)
Proof.给定任意生成器G,判别器D的训练标准为最大化目标函数V(G, D)
(3)
对于任意的(a,b)isin; {0,0},函数y→alog(y) blog(1 - y)在[0, 1]中的处达到最大值。无需在Supp()U Supp()外定义判别器,证毕。
注意到,判别器D的训练目标可以看作为条件概率P(Y = )的最大似然估计,当y =1时,x来自于:当y=0时,x来自。公式1中的极小化极大问题可以变形为:
C(G)
(4)
Theorem1.当且仅当时,C(G)达到全局最小。此时,C(G)的值为-log4。
Proof. 时,(公式2)。再根据公式4可得,C(G)= log log= -log4。为了确定仅当时C(G)是否是最优的,观测
=-log4
然后从C(G)= V(, G)减去上式,可得:
C(G)= - log(4) KL () KL() (5)
其中KL为Kullback-Leibler散度。我们在表达式中识别出了模型判别和数据生成过程之间的Jensen-Shannon散度:
C(G) = -log(4) 2 (6)
由于两个分布之间的Jensen-Shannon散度总是非负的,并且当两个分布相等时,值为0。因此C* =-log(4)为C(G)的全局极小值,并且唯一解为,即生成模型能够完美的复制数据的生成过程。
4.2算法1的收敛性
Proposition 2.如果G和D有足够的性能,对于算法1中的每一步, 给定G时,判别器能够达到它的最优,并且通过更新来提高这个判别准则。
则收敛为。
Proof.如上述准则,考虑V(G,D) = U(,D)为关于的函数。注意到U(,D)为的凸函数。该凸函数上确界的次导数包含达到最大值处的该函数的导数。换句话说,如果f(x) = 且对于每一个a,是关于x的凸函数,那么如果=arg,则isin;。这等价于给定对应的G和最优的D,计算的梯度更新。如定理1所证明,是关于的凸函数且有唯一的全局最优解,因此,当的更新足够小时,收敛到,证毕。
实际上,对抗的网络通过函数G(z;)表示分布的有限簇,并且我们优化而不是本身。使用一个多层感知机来定义G在参数空间引入了多个临界点。然而,尽管缺乏理论证明,但在实际中多层感知机的优良性能表明了这是-一个合理的模型。
5.实验
我们在一系列数据集上,包括MNIST、多伦多面数据库(TFD) 和CIFAR-10, 来训练对抗网络。生成器的激活函数包括修正线性激活(ReLU) 和sigmoid 激活,而判别器使用maxout激活。Dropout被用于判别器网络的训练。虽然理论框架可以在生成器的中间层使用Dropout和其他噪声,但是这里仅在生成网络的最底层使用噪声输入。
Table1:基于Parzen窗口的对数似然估计。MNIST上报告的数字是测试集上的平均对数似然以及在样本上平均计算的标准误差。在TFD上,我们计算数据集的不同折之间的标准误差,在每个折的验证集上选择不同的。在TFD上,在每个折上对进行交叉验证并计算平均对数似然函数。对于MNIST,我们与真实值(而不是二进制)版本的数据集的其他模型进行比较。
我们通过对G生成的样本应用高斯Parzen窗口并计算此分布下的对数似然,来估计测试集数据的概率。高斯的参数通过对验证集的交叉验证获得。Breuleux等人引入该过程且用于不同的似然难解的生成模型上。结果报告在表1中。该方法估计似然的方差较大且高维空间中表现不好,但确实目前我们认为最好的方法。生成模型的优点是可采样而不直接估技似然,从而促进了该模型评估的进一步研究。
训练后的生成样本如下图2图3所示。虽然未声明该方法生成的样本优于其它方法生成的样本,但我们相信这些样本至少和文献中较好的生成模型相比依然有竞争力,也突出了对抗框架的潜力。
Figure 2:来自模型的样本的可视化。最右边的列示出了相邻样本的最近训练示例,以便证明该模型没有记住训练集。 样品是完全随机抽取,而不是精心挑选。与其他大多数深度生成模型的可视化不同,这些图像显示来自模型分布的实际样本。此外,这些样本是完全不相关的,因为,采样过程并不依赖马尔科夫链混合。A)MNIST; b)TFD:;c) CIFAR-10 (全连接模型) ;d) CIFAR-I0 (卷积判别器和“解卷积”生成器)
Figure 3:通过在完整模型的z空间的坐标之间进行线性内插获得的数字。
Table 2:生成建模中的挑战:对涉及模型的每个主要操作的深度生成建模的不同方法遇到的困难的总结。
6.优势和劣势
新框架相比以前的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20227],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。