[6147]神经网络领的域对抗训练外文翻译资料

 2021-12-06 21:45:29

英语原文共 46 页


Domain-Adversarial Training of Neural Networks

神经网络领的域对抗训练

摘要

我们介绍了一种新的域自适应表示学习方法,其中训练和测试时的数据来自相似但不同的分布。我们的方法直接受到域适应理论的启发,这一理论认为,要实现有效的域转移,必须根据不能区分训练(源)域和测试(目标)域的特征进行预测。

该方法在神经网络体系结构的上下文中实现了这一思想,即基于源域的标记数据和目标域的未标记数据(不需要标记的目标域数据)。随着训练的进展,这种方法促进了以下特征的出现:(i)对源域上的主要学习任务有区别;(i i)对域之间的转换不加区分。我们表明,这种适应行为几乎可以在任何前馈模型中通过用很少的标准层来增强它来实现。和一个新的梯度反转层。由此产生的增强架构可以使用标准的反向传播和随机梯度下降进行培训,因此可以使用任何深度学习包轻松实现。

我们证明了我们的方法对于两个截然不同的分类问题(文档情感分析和图像分类)的成功,在这两个问题中,实现了标准基准上最先进的领域适应性能。我们还验证了在人员重新识别应用环境下描述符学习任务的方法。

关键词:领域适应;神经网络;表征学习;深度学习;合成数据;图像分类;情感分析;人的再识别

1.导语

为新机器学习任务生成标记数据的成本通常是应用机器学习方法的障碍。特别是,这是深度神经网络体系结构进一步发展的一个限制因素,它已经在各种机器学习任务和应用程序中为最新技术带来了令人印象深刻的进步。对于缺乏标记数据的问题,可能仍有可能获得足够大的训练集来训练大规模的深层模型,但这是由于数据分布的变化与在测试时遇到的实际数据的变化。一个重要的例子是在合成或半合成图像上训练一个图像等级,这些图像可能大量出现并被完全标记,但不可避免地具有与真实图像不同的分布(Lieband Schmid,2010;Stark et al.,2010;Vazquez et al.,2014;Sun and Saenko,2014)。另一个例子是在书面评论中的情感分析的背景下,人们可能已经为一种类型的产品(如电影)的评论标记了数据,同时需要对其他产品(如书籍)的评论进行分类。

在训练和测试分布之间存在移位的情况下,学习判别分类器或其他预测器被称为领域适应 (DA)。所提出的方法在源 (训练时间) 和目标 (测试时间) 域之间构建映射, 因此,当由域之间的学习映射组成时,为源域学习的分类器也可以应用于目标域。域适应方法的吸引力是能够在目标域数据要么完全无标签 (无监督域注释) 的情况下学习域之间的映射或者标记的样本很少 (半监督领域适应)。下面,我们将重点放在更难监督的情况下,尽管所提出的方法 (领域对抗学习) 可以推广到半监督的领域。

与以前许多使用固定特征表示的领域适应论文不同,我们专注于在一个训练过程中结合领域适应和深度特征学习。我们的目标是将领域适应嵌入到学习表示的过程中,以便根据对领域变化既具有区别性又不变的特征,即在源和目标域中具有相同或非常相似的分布。这样,得到的前向网络就可以适用于目标域,而不会受到两个域之间移动的阻碍。我们的方法是由领域适应理论 (Ben-David 等人,2006,2010) 推动的,该理论表明,跨域转移的良好表示是算法无法实现学习识别输入观察的起源域。

因此,我们专注于学习将 (i) 盘边缘与 (ii) 域不变相结合的特征。这是通过联合优化底层特征以及在这些特征上运行的两个判别分类器来实现的: (i) 预测类标签的标签预测器,在训练和测试时使用,以及 (ii) 在训练中区分源和目标域的域分类器。虽然为了最小化训练集上的误差,对分类器的参数进行了优化, 优化了底层深度特征映射的参数,以最小化标签分类器的损失,并最大化域分类器的损失。因此,后一个更新与域类ER相反,它鼓励在优化过程中出现域不变特性。

至关重要的是,我们证明了这三个训练过程都可以嵌入到一个适当组成的深度前馈网络中,称为域对抗神经网络(dann)(如图1,第12页所示),该网络使用标准层和损失函数,并且可以使用基于随机梯度下降或其修改的标准反向传播算法(例如,带动量的SGD)进行训练。这种方法是通用的,因为可以为几乎任何可以通过后向传播培训的现有前馈体系结构创建DANN版本。在实践中,被提出的架构的唯一非标准组件是一个非常小的渐变反转层,它在正向传播期间保持输入不变,并在反向传播期间将渐变乘以负标量来反转渐变。

我们在一系列深度架构和应用中提供了对所提出的领域对抗学习思想的实验评估。我们首先考虑最简单的 DANN 体系结构,其中三个部分 (标签预测器、领域分类器和特征提取器) 是线性的,并展示了这种体系结构的领域对合成数据以及自然语言处理中的情感分析问题进行评估,其中 DANN 在共同亚马逊评论基准上改进了最先进的 Chen 等人 (2012)的边缘化堆叠自动编码器 (mSDA) 。

我们进一步对图像分类任务的方法进行了广泛的评估,并在传统的深度学习图像数据集,如 MNIST (LeCun 等人,1998) 上展示了结果和SVHN (Netzer 等人,2011) 以及 Office 基准测试 (Saenko 等人,2010),在这种情况下,领域对抗学习允许获得比以前最先进的准确性大大提高的深度架构。

最后,我们在重新识别应用程序 (Gong 等人,2014) 的背景下评估了领域对抗描述符学习, 其中任务是获得适合检索和验证的良好行人图像描述符。我们应用领域对抗学习,因为我们考虑的是用类似暹罗的损失训练的描述符预测器,而不是用分类损失训练的标签预测器。在一系列实验中,我们证明了领域对抗学习可以显著提高跨数据集的重新识别。

  1. 相关工作

实现领域适应的一般方法在许多方面进行了探索。多年来,大部分文献主要关注线性假设(例如,Blitzer等人,2006年;Bruzzone和Arconcini,2010年;Germain等人,2013年;Baktashmotlagh等人,2013年;Cortes和Mohri,2014年)。最近,非线性表征越来越受到研究,包括神经网络表征(Glorot等人,2011年;Li等人,2014年),尤其是最先进的MSDA(Chen等人,2012年)。该文献主要集中于利用基于去噪自动编码器范式的鲁棒表示原理(Vincent等人,2008年)。

同时,针对无监督域自适应,提出了多种匹配源域和目标域特征分布的方法。一些方法通过重新称重或从源域中选择样本来实现这一点(Borgwardt等人,2006;Huang等人,2006;Gong等人,2013),而其他方法则寻求将源分布映射到目标域的显式特征空间转换(Pan等人,2011;Gopalan等人,2011;Baktashmotlagh等人,2013)。分布匹配方法的一个重要方面是测量分布之间(dis)相似性的方法。在这里,一个流行的选择是匹配内核复制希尔伯特空间中的分配方式(Borgwardt等人,2006;Huang等人,2006),而Gong等人(2012)和Fernando等人。(2013)绘制与每个分布相关的主轴。

我们的方法也试图匹配特征空间分布,但是这是通过修改特征表示本身而不是通过重新加权或几何变换来实现的。此外,我们的方法使用了一种相当不同的方法来测量分布之间的差异,这是基于它们的可分离性,通过一个深度歧视性训练分类器。还请注意,有几种方法通过逐渐改变训练分布来实现从源域到目标域的转换(Gopalan等人,2011年;Gong等人,2012年)。Chopra等人(2013)通过对一系列深层自动编码器进行分层培训,以“深层”的方式实现这一点,同时逐渐用目标域样本替换源域样本。这比Glorot等人(2011)的类似方法有所改进,后者只为两个领域培训一个深度自动编码器。在这两种方法中,实际的分类器/预测器是使用自动编码器学习的特征表示在单独的步骤中学习的。与Glorot等人相比,(2011年);Chopra等人(2013年),我们的方法在统一的体系结构中,使用单一的学习算法(反向传播),共同执行特征学习、领域适应和分类器学习。因此,我们认为我们的方法更简单(无论是从概念上还是从实现上)。我们的方法在流行的Office基准上也取得了相当好的效果。

虽然上述方法执行无监督域自适应,但也有一些方法通过利用目标域中的标记数据执行有监督域自适应。在深度前馈架构的背景下,这些数据可用于“微调”在源域上训练的网络(Zeiler和Fergus,2013;Oquab等人,2014;Babenko等人,2014)。我们的方法不需要标记的目标域数据。同时,当这些数据可用时,它可以很容易地合并这些数据。

Goodfellow等人描述了与我们相关的一个想法。(2014)。虽然他们的目标是完全不同的(构建可合成样本的生成式深层网络),但是他们测量和最小化训练数据分布和合成数据分布之间的差异的方式与我们的架构测量方法非常相似,并最小化特征分布之间的差异。此外,作者还提到了在于各领域的显著差异,培训的早期阶段。他们用来规避这个问题的技术(梯度的“对立”部分被一个适当成本的梯度所代替)直接适用于我们的方法。

此外,Tzeng等人的近期和同期报告。(2014年);龙和王(2015年)专注于前馈网络中的域适应。他们的一组技术测量并最小化跨域数据分布手段之间的距离(可能是在将分布嵌入RKH之后)。因此,他们的方法不同于我们的匹配分布的想法,通过使它们对下面的区分分类器不可区分,我们将我们的方法与Tzeng等人(2014年)、Long和Wang(2015年)在Office基准上进行了比较。另一种深度域适应方法,可以说与我们的方法更为不同,由Chen等人并行开发。(2015年),从理论角度来看,我们的方法直接来源于Ben David等人的开创性理论著作。(2006, 2010)。实际上,dann直接优化了h-散度的概念。我们确实注意到了Huang和Yates(2012年)的工作,在该工作中,HMM表示是通过一个后正则化器学习的,这个后正则化器也受到了Ben David等人的工作的启发。除了Huang和Yates(2012)的任务不同外,我们还认为,Dann学习目标更紧密地优化了h-差异,Huang和Yates(2012)基于效率原因依赖于Cruder近似。

从理论上讲,我们的方法直接来源于本·大卫等人的开创性理论著作。(2006, 2010)。实际上,dann直接优化了h-散度的概念。我们确实注意到了Huang和Yates(2012年)的工作,在该工作中,HMM表示是通过一个后正则化器学习的,这个后正则化器也受到了Ben David等人的工作的启发。除了Huang和Yates(2012)的任务不同外,我们还认为,Dann学习目标更紧密地优化了h-散度,Huang和Yates(2012)基于效率原因依赖于Cruder近似。

本文的一部分已作为会议论文(Ganin和Lempit)发表。该版本通过纳入Ajakan等人的报告,极大地扩展了Ganin和Lempitsky(2015年)(作为第二次转移和多任务学习讲习班的一部分)引入了新术语、深入的理论分析和方法论证、对合成数据的浅Dann案例以及自然语言处理任务(情感分析)进行了大量实验。此外,在本版本中我们超越了分类和评估领域的竞争性学习,在人员重新识别应用程序中为描述符学习设置。

  1. 域的适配

我们考虑分类任务,其中x是输入空间,y=0,1,。hellip;,Lminus;1是一组L可能的标签。此外,我们在xtimes;y上有两种不同的分布,称为源域ds和目标域dt。然后提供一种无监督域自适应学习算法,该算法具有从d s中提取的标记源样本s的I.I.D.和从dxt中提取的未标记目标样本t的I.I.D.,其中dxt是dt在x上的边缘分布。

  1. 域对抗神经网络(DANN)

我们方法的一个原始方面是将定理2所示的思想显式地实现到神经网络分类器中。也就是说,为了学习一个能够很好地从一个域推广到另一个域的模型,我们确保神经网络的内部表示不包含有关输入源(源或目标)的歧视性信息,同时保持源(标记)示例的低风险。在本节中,我们详细介绍了建议的inc方法。或将“域适应组件”构建到神经网络。在第4.1小节中,我们从开发最简单的可能情况(即单个隐藏层、完全连接的神经网络)开始。然后我们描述如何将这种方法推广到任意(深层)网络体系结构中。

  1. 实验

在本节中,我们给出了浅域对抗神经网络(第5.1小节)和深域对抗神经网络(第5.2和5.3小节)的各种经验结果。

  1. 结论

本文提出了一种新的前馈神经网络域自适应方法,该方法允许基于源域中大量注释数据和目标域中大量未注释数据的大规模训练。与许多以前的浅部和深部DA技术类似,通过调整跨两个领域的特征分布来实现自适应。但是,与以前的方法不同,校准是通过标准的反向传

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。