英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
学会比较:小样本学习的关系网络
Flood Sung Yongxin Yang[3] Li Zhang[2] Tao Xiang[1] Philip H.S.Torr[2] Timothy M. Hospedales[3]
[1]伦敦大学玛丽皇后学院 [2]牛津大学 [3]爱丁堡大学
floodsung@gmail.com t.xiang@qmul.ac.uk
{lz, phst}@robots.ox.ac.uk {yongxin.yang, t.hospedales}@ed.ac.uk
摘 要
我们提出了一个概念简单、灵活和通用的小样本学习框架,其中一个分类器必须学会识别新的类,给出的每个类只有几个例子。我们的方法称为关系网络(RN),是从头开始进行端到端训练的。在元学习期间,它学会了学习一个深度距离度量来比较一小部分的图像,每一部都是设计来模拟小样本的设置。一旦训练,RN可以通过计算查询图像和每个新类别的少数例子之间的关系得分来对新类别的图像进行分类,而无需进一步更新网络。为了提高小样本学习的性能,我们的框架很容易扩展到零样本学习。在五个基准测试上的大量实验表明,我们的简单方法为这两个任务提供了统一和有效的应用程序。
1 引言
深度学习模式在视觉识别任务中取得了巨大的成功[22,15,35]。然而,这些超视图学习模型需要大量的标记数据和多次迭代来训练它们的大量参与者。由于注释成本的原因,这严重限制了它们对新类的可伸缩性,但从根本上限制了它们对新出现类(例如,新型消费电子产品)或稀有(例如,稀有动物)的类别,无数无关的图像可能根本不存在。相比之下,人类非常善于识别物体,只需要很少的直接监督,或者根本没有监督。例如:小样本[23,9]或零样本学习[24]。例如:孩子们可以从一本书中的一张图片中将“斑马”的概念进行基因化,或者听到它看起来像斑马的描述。由于传统的深度学习方法不能很好地在每个类上处理一个或几个样本,以及受到人类少样本和零样本学习能力的启发,最近人们对机器一或小样本[8,39,32,18,20,10,27,36,29]和零样本学习[11,3,24,45,25,31]。
少数镜头学习的目的是从极少数标记的例子中识别出新颖的视觉美食。只有一个或几个样本的可用性对深度学习中的标准“微调”实践提出了挑战[10]。数据增强和规范化技术可以减轻在这样一个有限的数据体系中的过度适配,但是他们不能解决这个问题。因此,当代的小样本学习方法往往将训练分解为辅助的元学习阶段,在这个阶段,可转移的知识以良好的初始条件[10]、嵌入[36,39]或最佳策略[29]的形式学习。然后通过使用已学习的优化策略[29]微调[10]来学习目标少样本学习问题,或者在不更新网络权重的前馈传递[36,39,32]中计算目标少样本学习问题。零样本学习也面临着一个相关的挑战。识别器以类归属的形式通过单个样本进行训练,使基于梯度学习的数据不足成为一个挑战。
虽然前景看好,但大多数现有的小样本学习应用程序要么需要复杂的推理机制[23,9]、复杂的递归神经网络/神经网络(RNN)架构[39,32],要么需要对目标问题进行微调[10,29]。我们的方法与其他旨在为一次性学习训练有效度量的方法联系最为紧密[39,36,20]。当他们关注可转移嵌入的学习并且预先定义一个固定的度量(例如,欧氏[36])时,我们进一步的目标是学习一个可转移的深度度量来比较图像之间的关系(小样本学习),或者图像和类描述之间的关系(零样本学习)。在嵌入模块和关系模块都存在多个非线性学习阶段的情况下,通过释放深层解的归纳偏差,使问题的广义解更容易学习。
具体来说,我们提出了一个双分支关系网络(RN),通过学习比较查询图像和小样本标记样本图像来执行小样本识别。首先嵌入模块生成查询和训练图像的表示,然后由一个关系模块对这些嵌入进行比较,该模块确定它们是否来自匹配的类别。在[39,36]的启发下,定义了一个基于情节的学习策略,嵌入和重组模块是元学习端到端的,以支持小样本学习。这可以看作是扩展了[39,36]的策略,以包括一个可学习的非线性比较器,而不是一个固定的线性比较器。我们的方法比以前的方法要好,而且更简单(没有RNNs[39,32,29])和更快(没有微调[29,10])。我们提出的策略也直接推广到零样本学习。在这种情况下,样本分支嵌入一个单镜头的类别描述,而不是一个单一的样本训练图像,关系模块学习比较查询图像和类别描述嵌入。
总的来说,我们的贡献是提供了一个清晰的框架,优雅地包含了少和零样本学习。我们对四个基准的评估表明,它支持令人信服的整体性能,同时比替代方案更简单、更快。
2 相关工作
一个或几个镜头的物体识别的研究已经有一段时间的兴趣[9]。早期关于小样本学习的工作往往涉及具有复杂迭代推理策略的生成模型[9,23]。随着有区别的基于深度学习的方法在数据丰富的多镜头环境[22,15,35]中取得成功,人们对将这种深度学习方法推广到小样本学习环境的兴趣大增。许多这些方法使用元学习或学习-学习策略的意义是,他们从一组辅助任务(元学习,学习-学习)中提取一些可转移的知识,然后帮助他们学好目标少样本问题,当应用深度模型解决稀疏数据问题时,而不会遭受可能会出现的过度拟合。
2.1微调学习
成功的MAML方法[10]旨在元学习一个初始条件(一组神经网络权重),这有利于微调小样本的问题。这里的策略是搜索一个给定的神经网络的权重配置,这样它可以有效地微调稀疏数据问题在几个梯度下降更新步骤。从一个多任务训练集中采集了许多不同的目标问题,然后对基本神经网络模型进行微调以求解每一个问题,并在微调驱动器更新基本模型后成功地处理每一个目标问题,从而推动产生一个易于微调的初始条件。
小样本优化方法[29]在元学习方面走得更远,不仅是一个良好的初始条件,而且是一个基于LSTM的优化器,被训练为具体有效的微调。
然而,这两种方法都需要对目标问题进行微调。相比之下,我们的方法完全前馈地解决目标问题方式,无需更新模型,使其更方便于低延迟或低功耗应用程序
2.2基于RNN记忆
另一类方法利用带有记忆的递归神经网络[27,32]。这里的典型思想是,一个RNN循环遍历给定问题的前组,并在其隐藏激活或外部记忆中积累解决该问题所需的知识。例如,新的样本可以通过与存储在记忆中的历史信息进行比较来进行分类。因此,“学习”单个目标问题可以用来展开RNN,而“学习即学习”则是通过学习许多不同的问题来训练RNN的权值。
尽管具有吸引力,这些架构面临的问题是如何确保它们可靠地存储所有潜在的长期的相关的历史信息而不会忘记。在我们的方法中,我们避免了反复出现的网络工作的复杂性,以及确保其内存充足所涉及的问题。相反,我们的“学会学习”的方法完全被简单而快速的前馈CNN所取代。
2.3嵌入和度量学习方法
先前的方法在学习目标小样本问题时会带来一定的复杂性。另一类方法旨在学习一组投影函数,这些函数从目标问题中获取查询和样本图像,并以前馈方式对它们进行分类[39,36,4]。一种方法是根据样本集[4]参数化前馈分类器的权重。这里的元学习是训练辅助的参量化网络,学习如何根据一个小样本的样本集来参数化一个给定的前馈分类问题。基于度量学习的方法旨在学习一组投影函数,以便在这种嵌入中使用简单的最近邻或线性分类器易于识别图像[39,36,20]。在这种情况下,元学习可转换知识是投影函数,目标问题是一个简单的前馈计算。
与我们最相关的方法是[36]的原型网络和[20]的暹罗网络。这些方法侧重于学习能够转换数据的嵌入,以便使用固定的最近邻分类器[36]或线性分类器[20,36]识别数据。相反,我们的框架进一步定义了一个关系分类器CNN,风格为[33,44,14](而[33]侧重于推理同一图像中两个对象之间的关系,以解决一个不同的问题)。与[20,36]相比,这可以被看作是提供了一个可学的而不是固定的度量,或者是非线性的而不是线性分类器。与[20]相比,我们得益于一种从头开始的端到端方式的情景训练策略,并且与[32]相比,我们避免了样本集的集合到集合的RNN嵌入的复杂性,而仅仅依赖于集合[33]。
2.4零样本学习
我们的方法是零样本学习,通过修改样本分支输入单个类别描述,而不是单个训练样本,可以很好地跨越空间进入零样本学习(ZSL)。应用于ZSL时,我们的体系结构涉及到一些方法,这些方法通过预测图像和类别嵌入对是否匹配[11,3,43,46]来学习对齐图像和类别嵌入以及执行识别。与先前的基于度量的小样本算法非常相似,这些算法在结合图像和类别嵌入之后,大多采用固定的手动定义的相似度量或线性分类器。相比之下,我们再次受益于更深层次的端到端架构,包括以我们的学习卷积翻译网络为形式的学习非线性度量,以及基于情节的培训策略。
3 方法论
3.1 问题定义
我们考虑了小样本分类器学习的任务。正式的,我们有三个数据集:一个训练集、一个支持集和一个测试集。支持集和测试集共享相同的标签空间,但训练集有自己的标签空间,与支持集/测试集不相交。如果支持集包含每个C唯一类的K标记示例,则目标小样本问题称为C-way K-shot。
原则上,我们可以在测试集训练一个分类器,为每个样本circ;x分配一个类标签circ;y。然而,由于缺少标签样本集的支持,这样一个分类器的性能通常是不能令人满意的。因此,我们的目标是在训练集上进行元学习,以提取可转移的知识,使我们能够在支持集上进行更好的小样本学习,从而更成功地对测试集进行分类。
利用训练集的一个有效方法是通过基于集的训练来模拟小样本的学习设置,如[39]中所提出的。在每个训练迭代中,从训练集中随机选择C个类,其中K个类作为样本集S,形成一个集合 ,以及作为查询集 的其余C类样本的一部分。此示例/查询集拆分旨在模拟将在测试时遇到的支持/测试集。如果需要,可以使用支持集进一步微调从样本/查询集训练的模型。在这项工作中,我们采用了这种以情景为基础的培训战略。在我们的小样本实验(见4.1节)中,我们考虑一次镜头(K = 1,图1)和五次镜头(K = 5)的设置。我们还解决了K = 0的零样本学习情况,如3.3节所述。
3.2 模型
3.2.1 one-shot
我们的关系网络(RN)包括两个模块:一个嵌入模块fϕ和gphi;关系模块,如图1所示。样本xj在查询集中,样本xi在样本集S中,S和Q通过嵌入模块fϕ,产生特征图谱fϕ(xi)和fϕ(xj )。fϕ(xi)和fϕ(xj )组成特征映射C(fϕ(xi), fϕ(xj ))。在这项工作中,尽管有其他的选择,我们假设C(fϕ(xi), fϕ(xj ))是深度的特征映射的连接。样品的组合特征映射和查询被送入gphi;关系模块,最终产生一个标量范围从0到1代表xi 和 xj 之间的相似性,即关系得分。因此,在C-way one-shot设置中,我们生成C关系得分ri,j 作为一个查询输入 xj 和训练样本集例xi之间的关系。
图1 带有一个查询示例的 5-way1-shot 问题的关系网络体系结构
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239799],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。