利用部分标签进行多标签分类研究外文翻译资料

 2022-08-26 16:15:08

英语原文共 30 页,剩余内容已隐藏,支付完成后下载完整资料


利用部分标签进行多标签分类研究

摘要

DeepConvNets在单标签图像分类(例如ImageNet)方面表现出了出色的性能,但有必要超越单一标签分类任务,因为日常生活中的图片本质上是多标签的。与单标签分类相比,多标签分类是一项更为困难的任务,因为输入图像和输出标签空间都比较复杂。此外,收集干净的多标签批注更难以缩放。在注释成本方面,我们建议训练一个带有部分标签的模型,即每个图像只知道一些标签。我们首先通过经验比较不同的标记策略来显示粒子的可能性。然后,为了学习部分标签,我们引入了一个新的分类损失,利用每个示例的已知标签的比例。我们的方法允许使用与使用所有注释学习时相同的培训设置。我们进一步探索了一些课程,以预测缺失的标签。在MSCOCO、NUS-WIDE和开放图像三个大型多标签数据集上进行了实验。

1. 简介

最近,StockandCisse提出的经验证据表明,最先进的分类器在ImageNet[47]上的性能在很大程度上被低估了--大部分的重构错误是由于ImageNet的一角注释忽略图像固有的多标签性质。不喜欢Imagenet,多标签数据集(e.g.MSCOCO[36],OpenImages[32])包含更复杂的图像,表示具有多个对象的场景(图1)。但是,与单标签批注相比,收集多标签批注更难扩展[13]。作为一种替代策略,可以使用部分标签;通过众包平台收集部分标签是很容易的,也是可扩展的。在本工作中,我们研究了学习多标签分类器与部分标签的图像的问题。

证明图像分类性能是:

1)设计/学习更好的模型体系结构[42,21,50,66,15,60,53,14,44,67,37,16]

2)学习与更多的标记数据[51,38]。但是,收集多标签数据集是非常困难的,并且减少了该数据集[13],因为为每个图像收集一致且详尽的标签列表需要付出巨大的努力。为了克服这一挑战使用web监控自动生成标签[51,34,38]。但这些方法的缺点是注释是嘈杂的,并不是详尽无遗的,学习损坏的labelscanleadpover-不力的泛化性能。对于双层干扰,有人建议用嘈杂的标签来学习[56]

签数据集带有部分清洁标签[32]。对于每个图像,某些类别的标签是已知的,但其余的标签是未知的(图1)。比如,我们知道有车,形象中没有熊,但我们不知道是有人、船还是苹果。放宽对详尽标签的学习要求,为大规模标签打开了更好的机会。像Amazon机械工程Turk1和Google图像实验室2这样的平台或像reCAPTCHA3这样的网络服务可能会受到影响可有效地收集大量图像的部分标签。

据我们所知,这是首次研究在大型数据集上学习带有部分标签的多标签图像分类器这一具有挑战性的任务。在大型数据集上使用部分标签学习带来了新的挑战,因为现有的方法[55、61、59、62]不是可缩放的,也不能使用到微调convnet。我们通过引入新的丢失函数和修复丢失标签的方法来解决这些关键的技术挑战。我们的第一个贡献是通过经验比较多标签数据集的几种标记策略,以突出部分数据集的潜在知识。Givenafixededlabel预算,我们的实验表明,部分注释所有图像比完全注释一个小子集要好。作为第二个贡献,我们提出了一个可扩展的方法来学习带有部分标签的ConvNet。我们引入了一个利用标签比例信息推广标准二进制交叉损失的损失函数。此损耗会自动适应每个图像的已知标签的比例,并允许使用与使用所有标签学习时相同的训练设置。我们最后的贡献是预测缺失标签的方法。这就是真正的模型的准确性,可以用来预测丢失的标签。因为Convnet是sensitivetonoise[65],weproposeacurriculumlearningbased模型[2],它逐步预测一些缺失的标签,并将其添加到训练集中。为了改进标签预测,我们开发了一种基于图形神经网络(Gnn)的方法来显式建模类别之间的相关性。在多标签设置中,并非所有标签都是独立的,因此,关于观察到的标签和未观察到的部分标签之间的标签相关性的推理很重要。

2. 相关工作

学习与部分/失踪标签。多标签任务通常涉及不完整的训练数据,因此提出了几种方法来解决缺少标签(MLML)的多标签学习问题。第一种简单的方法是将丢失的标签视为否定标签[52、3、39、58、51、38]。然后,MLML问题就变成了一个完全标记的学习问题。此解决方案在大多数有网络监督的方法中使用[51,38]。标准假设是只存在查询的类别(例如图1中的car),而不存在所有其他类别。但是,性能下降,因为大量的地面真相阳性标签被初始化为负labels[26]。AsecondsolutionisBinaryRelevance(BR)[55],将每个标签视为独立的二进制分类。但是,当类别数量增加并且忽略标签之间和实例之间的相关性时,这种方法是不可扩展的,这对识别很有帮助。与BR不同,我们提出的方法允许使用部分标签学习单个模型。

为了克服第二个问题,建议进行几项工作,以利用培训数据中的标签相关性,将标签信息从提供的标签传播到缺失的标签。[4,61]使用矩阵完成算法来填充缺少的标签。这些方法利用标签矩阵上的低正则化的拉格贝尔相关性和实例相关性来完成实例-标签矩阵。文献64引入经验风险最小化[59],对标签依赖关系网络进行编码[39,13]。了解到类别之间相关性,以预测一些缺失的标签。与大多数假定相关性是线性和非结构化的现有模型不同,文献62建议学习结构化语义相关性。另一种策略是将缺失的标签视为概率模型中的潜在变量。缺失的标签是通过后部推断来预测的。文献27和57使用基于贝叶斯网络的模型[23]而文献10提出了一个深顺序生成模型基于变量----Encoderframework[29],它还允许处理未标记的数据。然而,这些作品大多不能用来学习深度的ConvNet。它们需要解决内存中训练集的优化问题,因此不可能使用氨基。这是有限的,因为它是众所周知的微调是重要的转移预先训练的体系结构[30]。某些方法也是不可扩展的, 因为他们需要解决凸四边形的问题[59,62]。对于大型数据集来说是很棘手的。与这些方法不同,我们提出了一个可扩展和端到端学习的模型。为了训练我们的模型,我们引入了一个新的损失函数,它适应每个例子的已知标签的比例。类似于Mlml方法,利用学习分类器对缺失标签进行填充的策略。使用部分标签的学习不同于半托管学习[6],因为在半监督学习设置中,只有一个示例的子集被标记为所有标签,而在部分标签设置中,所有图像被标记,但仅使用标签的子集。请注意,文献12还引入了一个部分标记的学习问题(也称为歧义学习),但问题不同:在文献12中,每个示例都用多个标签进行注释,但只有一个是正确的。

课程学习/永不结束学习:为了预测缺失标签,我们提出了一种基于课程学习的迭代策略[2]。课程学习的思想是通过人道学习而获得的:开始学习样本/子任务,并逐渐增加样本/子任务的难度。但是,主要关注的是课程学习者对于一个例子的困惑。为了解决这个问题,文献31使用了defini简单的样品是可以很容易地预测正确输出的样品。他们引入了迭代自定进度学习(SPL)算法,其中每次迭代同时选择简单样本并更新模型参数。文献24通过引入不同的自身起搏功能,将SPL推广到不同的学习方案。而不是使用人类设计的启发式算法,文献25提出了一种从嘈杂的数据中学习课程的方法。与我们的工作类似,文献 20最近推出了CurriculumNet,这是一个学习大规模嘈杂的网络图像和课程学习方法的模型。然而,该策略是针对多类图像分类而设计的,不能用于多标签图像分类,因为它使用基于聚类的模型来测量示例的难度。我们的方法也与永不结束学习(NEL)范式有关[40]。NEL的关键思想是使用以前学过的知识来改进模型的学习。文献33提出了一个框架,或者学习对象类模型和收集对象类数据集。文献5和40介绍了永无止境的语言学习,从数以百计的网页中提取知识。同样,文献7和8提出了永无止境的图像学习者来发现结构化的视觉知识。与使用先前学习的模型从网络数据中提取知识的这些方法不同,我们设定了模型来预测丢失的标签。

3 学习部分标签

我们在本文中的目标是训练ConvNets给出部分标签。我们通过部分标签来了解二元交叉熵。然后,我们使用图形神经网络扩展模型,以推断观察到的和未观察到的部分标记之间的标记相关性。最后,我们将使用基于课程的方法来确定用于预测缺失标签的精确模型符号。

图2.对于具有约束g(0.1)=5的超参数gamma;的不同值的权函数g(等式2)的示例gamma;控制关于标签比例py的归一化的行为。

3.1 部分标签的二元交叉熵

最流行的功能障碍模式多标签分类是二元交叉熵(BCE)。作为独立的类别,BCElossis由班级标准化。这会导致部分标记数据的回溯,因为反向传播的梯度变小。为了克服这个问题,我们提出部分BCE损失,通过已知标签的比例将损失标准化:

其中pyisin;[0,1]是y中已知标签的比例,g是相对于标签比例的归一化函数。请注意,部分BCE丢失会忽略未知标签的类别(yc=0)。在标准BCE损失中,归一化函数是g(py)=1.与标准BCE不同,部分BCE对每个示例赋予相同的重要性,与已知标签的数量无关,这在每个标签的比例时很有用。图像没有固定。这种损失适应已知标签的比例。我们现在解释我们如何设计归一化函数。

归一化功能g。函数g相对于标签比例标准化损失函数。当所有标签都存在时,我们希望部分BCE损失具有与BCE丢失相同的行为,即g(1)=1.我们建议使用以下归一化函数:

其中alpha;,beta;和gamma;是超参数,可以用来概括几个标准函数。例如,alpha;=1,beta;=0且gamma;=-1,该函数对每个例子进行加权,与标签的比例成反比。这相当于通过已知类的数量而不是类的数量进行标准化。给定gamma;值和weightforagivenproportion(例如g(0.1)=5),我们可以找到满足这些约束的超参数alpha;和beta;。超参数gamma;控制标准化相对于标签比例的行为。在图2中,我们在约束g(0.1)=5的情况下针对不同的gamma;值显示该函数。对于gamma;=1,归一化与标签比例成线性比例,而对于gamma;=-1,归一化值与标签比例。我们分析了每个超参数安全性的重要性。这种归一化与批量归一化相似[22],它规范了每个小批量的层输入的分布。

3.2 多标签类与GNN的结合

为了模拟这些类别之间的交互,我们在ConvNet之上使用图形神经网络(GNN)[19,48]。我们首先介绍GNN,然后详细说明我们如何使用GNN进行多标签分类。

对于GNN,输入数据是图G={V,E},其中V(相应的E)是图的节点集(相应的边)。对于每个节点visin;V,我们表示输入特征向量xv及其隐藏表示描述节点的状态时间乘以v.WeuseOmega;v指定v的相邻节点的集合。节点使用来自其邻居的信息来更新其隐藏状态。更新分解为两个步骤:消息更新和隐藏状态更新。消息更新步骤将发送到节点v的消息组合成单个消息向量mtv

更新消息的功能在哪里?在隐藏状态更新步骤中,根据消息mtv更新图中每个节点的隐藏状态htv。

其中F是更新隐藏状态的函数。MandF是在不同时间步骤之间共享的前馈神经网络。请注意,这些更新函数指定图表内信息的传播模型。

GNNformulti-labelclassi网络阳离子。对于多标签分类,每个节点代表一个类别(V={1,...,C}),边缘代表类别之间的连接。我们使用完全连通的图来模拟所有类别之间的相关性。使用ConvNet输出初始化节点隐藏状态。我们现在详细介绍我们模型中使用的GNN函数。算法补充材料中提供了补充信息。消息更新功能M.我们使用以下消息更新功能:

其中fM是多层感知器(MLP)。通过首先将隐藏状态馈送到MLPfM然后取平均值来计算消息。隐藏状态更新功能F.我们使用以下隐藏状态更新功能:

它使用门控循环单元(GRU)[9]。隐藏状态根据传入消息和先前隐藏状态进行更新。

3.3 标签的预测

在本节中,我们提出了一种使用课程学习策略预测一些缺失标签的方法[2]。我们基于自定进度模型[31,24]来制定我们的问题,目标是优化以下目标函数:

其中`c是类别c的损失,viisin;{0,1}C是表示第i个样本的选定标签的向量。vic=1(resp.vic=0)表示选择第i个例子的第c个标签(分别为未选择)。功能Gdefinesacurriculum,由theta;参数化,用于学习计划。在[31]之后,我们使用交替算法,其中w和v交替地最小化,一次一个,而另一个保持固定。算法1中显示的算法最初,仅使用干净的部分标签来学习模型。然后,该算法使用所学习的模型在训练集中逐渐增加“简单”弱(即,噪声)标签,然后使用清洁和弱标签继续训练模型。我们分析了添加新标签的不同策略:

分数阈值策略。该策略使用分类分数(即ConvNet)来估计对类别示例的困难。一个简单的例子具有高的绝对分数,而一个简单的例子具有接近于0的分数。我们使用部分标签上的学习模型来预测

仅当分类分数大于阈值theta;gt;0时才丢失标签。当w被固定时,最佳v可以通过以下方式导出:

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[441615],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。