用于小样本学习的匹配网络外文翻译资料

 2022-08-10 16:14:22

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


用于小样本学习的匹配网络

摘要

小样本学习仍然是机器学习中的一个关键挑战。尽管在视觉和语言等重要领域取得了最新进展,但标准的监督式深度学习范式并不能为从少量数据中快速学习新概念提供令人满意的解决方案。在这项工作中,我们采用了基于深度神经特征的度量学习和最近的利用外部记忆增强神经网络的进展。我们的框架学习了一个网络,它将一个小的带标签支持集和一个无标签的示例映射到它的标签上,从而避免了为了适应新的类类型而进行微调的需要。然后,我们定义视觉(使用Omniglot, ImageNet)和语言任务上的one-shot学习问题。与竞争方法相比,我们的算法提高了ImageNet的one-shot精度,从87.6%提高到93.2%,Omniglot的one-shot精度从88.0%提高到93.8%。我们还通过在Penn Treebank上引入一个one-shot任务来演示同一模型在语言建模上的实用性。

1.介绍

人类可以在很少的样本下学习新概念,例如一个孩子可以从一本书中的一张图片中概括出“长颈鹿”的概念,但是我们最好的深度学习系统需要成百上千个示例。这激发了我们感兴趣的环境:“小样本学习”,从一个单独的示例中学习课程。

深度学习在语音[7],视觉[13]和语言[16]等领域取得了重大进展,但因需要大量数据集而臭名昭著。数据扩充和正则化技术可缓解低数据状况下的过度拟合,但不能解决它。此外,学习仍然很慢,并且基于大型数据集,需要使用随机梯度下降法进行许多权重更新。我们认为,这主要是由于模型的参数方面,在这种情况下,需要通过模型将其的参数缓慢地学习训练示例。

相反,许多非参数模型可以使新示例快速被吸收,而不会遭受灾难性的遗忘。该系列中的某些模型(例如,最近的邻居)不需要任何训练,但性能取决于所选指标[1]。先前在非参数设置中进行度量学习的工作[18]对我们的模型具有影响力,我们的目标是融合参数和非参数模型的最佳特征–即快速获取新示例,同时提供对常见示例的出色概括性。

我们工作有两个全新的方面:在建模级别和在培训过程中。 我们提出了Matching Nets(MN),这是一种神经网络,它利用注意力和记忆力方面的最新进展来实现快速学习。 其次,我们的训练程序基于简单的机器学习原理:测试和训练条件必须匹配。 因此,为了训练我们的网络以进行快速学习,我们通过在每个班级仅显示几个示例,将任务从微型批处理切换到微型批处理来进行训练,就像在演示新任务的几个示例时如何对其进行测试一样。



除了在定义适合一次学习的模型和训练标准方面做出的贡献外,我们还通过定义可用于对ImageNet和小规模语言建模的其他方法进行基准测试的任务来做出贡献。 我们希望我们的结果将鼓励其他人努力解决这一具有挑战性的问题。

我们首先定义和解释我们的模型,同时将其几个组成部分与相关工作联系起来,从而组织了本文。 然后在下一节中,我们将简要介绍与任务和模型相关的一些工作。 在第4节中,我们描述了常规设置和我们执行的实验,展示了对各种任务和设置的一次性学习的强大结果。

  1. 模型

我们解决一次性学习的非参数方法基于以下两个小节中描述的两个组件。 首先,我们的模型体系结构遵循了神经网络中内存增加的最新进展(如第3节所述)。 给定一个(小的)支持集S,我们的模型为每个S定义一个函数cS(或分类器),即映射S→cS(。)。 其次,我们采用了一种训练策略,专门用于从支持集S一次学习。

2.1模型结构

近年来,许多小组研究了使用外部存储器和其他使神经网络体系结构更“类似于计算机”的方法的方法。 我们从模型中汲取灵感,例如注意序列[seq2seq],[2],内存网络[29]和指针网络[27]。

在所有这些模型中,通常都可以完全区分的神经注意力机制被定义为访问(或读取)存储矩阵,该矩阵存储有用的信息以解决手头的任务。 它的典型用途包括机器翻译,语音识别或问题解答。 更一般而言,这些架构对P(B | A)进行建模,其中A和/或B可以是一个序列(如seq2seq模型中的序列),或者对我们而言更有趣的是一个集合[26]。

我们的贡献是在设定的框架内解决一次性学习的问题[26]。关键点是,经过训练,匹配网络能够为未观察到的班级生成明智的测试标签,而无需对网络进行任何更改 。 更准确地说,我们希望从k个图像标签对S = {((xi,yi)} ki = 1)的(小型)支持集中映射到分类器cS(circ;x),给定一个测试例x example,该分类器定义 输出ycirc;的概率分布。 我们将映射S→cS(circ;x)定义为P(circ;y | x,Scirc;),其中P由神经网络参数化。 因此,当给定一个2个新的示例集S 0的支持集,从其中一次学习时,我们仅使用P定义的参数神经网络对每个测试示例xcirc;:P(circ;y | x ,Scirc;0)。 通常,对于给定的输入未知示例xcirc;和支持集S,我们的预测输出类别为arg maxy P(y | x,S circ;)。

我们的模型以最简单的形式计算ycirc;,如下所示:

其中xi,yi是支持集S = {((xi,yi)} k i = 1)中的样本和标签,而a是我们下面讨论的关注机制。请注意,图1本质上将新类别的输出描述为支持集中标签的线性组合。如果注意机制a是Xtimes;X上的核,则(1)类似于核密度估计器。如果根据某种距离度量,距xcirc;最远的xi的注意机制为零,否则为一个适当的常数,则(1)等于``k-b个近邻(尽管这需要扩展注意机制,即我们将在2.1.2节中介绍)。因此(1)既包含KDE方法又包含kNN方法。 (1)的另一种观点是,a充当注意力机制,yi充当与相应xi绑定的记忆。在这种情况下,我们可以将其理解为一种特殊类型的关联记忆,在给定输入的情况下,我们“指向”支持集中的相应示例,并检索其标签。但是,与其他注意力存储机制[2]不同,(1)本质上是非参数的:随着支持集大小的增加,所使用的存储器也会增加。因此,分类器cS(circ;x)定义的功能形式非常灵活,可以轻松地适应任何新的支持集。

2.1.1注意要点

公式1依赖于选择注意机制a(,),该机制完全指定了分类器。 这种形式最简单的形式(与常见注意模型和核函数之间有着非常紧密的关系)是在余弦距离c上使用softmax,即a(circ;x,xi)= ec(f(circ;x),g( xi))/ Pk j = 1 ec(f(f()x),g(xj)),其中嵌入函数f和g是适当的神经网络(可能带有f = g),以嵌入xcirc;和xi。 在我们的实验中,我们将看到示例,其中f和g被分别参数化为用于图像任务的深度卷积网络(如VGG [22]或Inception [24])或用于语言任务的简单形式的单词嵌入(请参见第4节)。

我们注意到,尽管与度量学习有关,但等式1定义的分类器是有区别的。对于给定的支持集S和样本对xcirc;进行分类,将xcirc;与对(x0,y0)isin;S充分对齐就足够了 y0 = y并与其余部分不对齐。 这种损失还与邻居成分分析(NCA)[18],三重态损失[9]或大余量最近邻居[28]等方法有关。

但是,我们尝试优化的目标与多路单发分类完全一致,因此我们希望它的性能要优于同类产品。 另外,损耗是简单且可微的,因此人们可以以“端到端”的方式找到最佳参数。

2.1.2全背景物例

我们的模型的主要新颖之处在于重新诠释(reinterpreting)一个经过充分研究的框架(具有外部记忆的神经网络,neural networks with external memories)来进行one shot学习。嵌入函数f和g与度量学习密切相关,并通过等式1中描述的分类函数提升到特征空间X,以获得最大的精度。

尽管分类策略完全取决于通过P(。| x,S circ;)设置的整个支持,但我们将余弦相似度应用于“参与”,“点”或简单地计算最近邻的嵌入是 近视是指每个元素xi独立于支持集S中的其他元素而由g(xi)嵌入。此外,S应该能够修改我们如何通过f嵌入测试图像xcirc;。

我们建议通过一个函数嵌入集合的元素,该函数除xi外还以完整的集合S作为输入,即g变为g(xi,S)。 因此,根据整个支持集S,g可以修改嵌入xi的方式。 当某些元素xj非常接近xi时,这可能很有用,在3种情况下,更改我们嵌入xi的函数可能是有益的–在第4节中讨论了一些证据。我们使用双向长短项 存储器(LSTM)[8]在支持集S的上下文中对xi进行编码,被视为一个序列(有关更精确的定义,请参阅附录)。

第二个问题可以通过LSTM来解决,它具有对整个集合S的读取注意,该集合S的输入等于x:

其中f0(circ;x)是输入到LSTM的要素(例如,从CNN派生)(每个时间步长不变)。 K是LSTM的固定展开步骤数,而g(S)是我们参加的集合,其中嵌入g。 这允许模型潜在地忽略支撑集S中的某些元素,并为注意力计算增加“深度”(有关更多详细信息,请参见附录)。

2.2训练策略

在前面的小节中,我们描述了匹配网络,该网络将支持集映射到分类函数S→c(Matchx)。 我们通过对集对集范式的修改加以注意来实现这一点,并增加了关注度,结果映射为Ptheta;(。| x,S circ;)形式,并注意到theta;是模型的参数(即嵌入的参数) 功能f和g)。

必须仔细选择培训程序,以便在测试时匹配推论。 我们的模型必须在支持集S0上表现良好,其中包含训练期间从未见过的课程。

更具体地说,让我们将任务T定义为在可能的标签集L上的分布。通常,我们考虑T统一对最多几个唯一类(例如5个)的所有数据集进行加权,每个类几个示例(例如up 至5)。 在这种情况下,从任务T L〜T采样的标签集L通常具有5至25个示例。

为了形成一个“片段”来计算梯度并更新我们的模型,我们首先从T中采样L(例如,L可以是标签集{cats,dogs})。 然后,我们使用L对支持集S和批次B进行采样(即S和B都被标记为猫和狗的示例)。 然后训练匹配网络,以最小化预测以支持集S为条件的批次B中的标签的错误。这是一种元学习的形式,因为训练过程明确学习了从给定支持集学习的知识,以最大程度地减少损失。 一批。 更准确地说,“匹配网”的培训目标如下:

用等式训练theta; 图2给出了一个模型,该模型在从新颖标签的不同分布中采样S0〜T0时效果很好。 至关重要的是,由于其非参数性质,我们的模型不需要对从未见过的类进行任何微调。 显然,由于T0与我们从中采样以学习theta;的T偏离很大,因此该模型将不起作用–我们在4.1.2节中进一步说明这一点。

  1. 相关工作

3.1记忆增强相关工作

最近,模型的发展超出了固定矢量的“静态”分类范围,从而重塑了当前的研究和工业应用。 在大量任务(例如语音[7],翻译[23、2]或学习程序[4、27])中大量采用LSTM [8]时,这一点最为明显。 允许使用更具表现力的模型的关键要素是在[2]中引入了基于“内容”的注意力,以及诸如“神经图灵机[4]或内存网络[29]”之类的“计算机”架构。 我们的工作采用[21]的金属学习范式,在该范式中,LSTM学会了从顺序显示的数据中快速学习,但我们将数据视为一组。 我们在Penn树库[15]上定义的一键式学习任务与[6]中介绍的评估技术和模型有关,我们将在第4节中对此进行讨论。

3.2标准学习

如第2节所述,在基于内容的注意力,基于内核的最近邻居和度量学习之间有许多联系[1]。 最相关的工作是邻域分量分析4(NCA)[18],以及后续的非线性版本[20]。 损失与我们的损失非常相似,除了我们使用整个支持集S而不是成对比较,这更适合单次学习。 深度卷积暹罗[11]网络形式的后续工作包括更强大的非线性映射。 在[28]中提出了其他损失,其中包括集合的概念(但使用了功能较弱的指标)。

最后,在[14]中的一次学习中的工作是鼓舞人心的,并且还为我们提供了宝贵的Omniglot数据集-被称为MNIST的“转置”。 其他作品在ImageNet上使用零镜头学习,例如 [17]。 但是,关于ImageNet的文献很少,我们希望在下一节中通过基准和任务定义进行修改。

  1. 实践

在本部分中,我们将匹配网络模型与强基准进行了比较,描述了许多实验的结果。 我们所有的实验都围绕着相同的基本任务:N向k-shot学习任务。 每种方法都提供了一组来自N个类别的k个标记的示例,这些示例以前尚未进行过训练。 然后,任务是将不相交的一批未标记的示例分类为这N个类之一。 因此,此任务的随机性能为1 / N。 我们将许多替代模型(作为基准)与匹配网络进行了比较。

让我们介绍一些符号。 L 0表示标签的保留子集,我们仅用于单次拍摄。 因此,除非另有说明,否则训练始终在6 = L 0上进行,并且在L0上以单发模式进行测试。

我们对三个数据集进行了一次实验:两个图像分类集(Omniglot [14]和ImageNet [19,ILSVRC-2012])和一个语言建模(Penn Treebank)。 在复杂性,大小和形式方面,对这三个数据集的实验包括一组不同的质量。

4.1图片分类结果

对于视觉问题,我们考虑了四种基准:在原始像素上进行匹配,在最新的分类器(基准分类器),MANN [21]上的区分特征上进行匹配以及对卷积暹罗网的重新实现[11]。 ]。对基线分类器进行了训练,以将图像分类为训练数据集中存在的原始类别之一,但排除了N个类别,以免给它带来不公平的优势(即,经过训练将其分类为6 = L0的类别)。然后,我们采用了该网络,并将最后一层的功能(在softmax之前)用于最近的邻居匹配,这是计算机视觉中常用的一种策略[3],在许多任务上都取得了出色的效果。继[11]之后,在原始训练数据集的相同或不同

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238365],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。