用深度卷积神经网络进行语义分割的弱监督学习:以最小人工监督理解图像的语义布局外文翻译资料

 2022-04-27 20:30:24

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


用深度卷积神经网络进行语义分割的弱监督学习:以最小人工监督理解图像的语义布局

语义分割是一个热门的视觉识别任务,其目标是估计图像中的像素级对象类标签。这个问题最近已经被深度卷积神经网络(DCNNs)解决了,并且这些现有技术在公共数据集上取得了令人印象深刻的记录。然而,学习DCNNs需要大量的注释好的训练数据,而现有数据集中的分割注释在数量和多样性方面因高额的注释成本而受到显著的限制。弱监督方法通过利用诸如图像级标签和边界框等弱标注来处理这个问题,这些标注或边框在现有的用于图像分类和对象检测的大规模数据集中比较容易获得,或者由于其较低的注释成本而容易获得。目前弱监督语义分割的主要挑战是不完整的注释丢失了学习分割过程中所需的精确的对象边界信息。本文全面概述了用于语义分割的弱监督方法。具体来说,我们描述了这些方法如何克服限制并讨论值得研究的研究方向以提高性能。

引言

在过去的几年中,我们观察到视觉识别技术的显著进步,这特别归功于最近DCNNs的发展[25]。 DCNNs直接从原始数据中学习一个层次结构特征,并且所学习的特征通常比在深度学习时代之前被广泛使用的手动设计的更加丰富和强大。此外,DCNNs可通过以端到端的方式联合优化其决策者(例如分类器)和特征提取器来进一步提高其容量。由于新型学习算法,大规模训练数据集和支持大规模并行计算的计算机硬件的发展,使得DCNNs能够实现这些能力。 DCNNs在视觉识别领域的成功案例包括超越人类水平的图像分类器[14],[15],满足极高精度和实时速度的物体检测器[30],[41],以及在许多其他计算机视觉任务中超越先前技术水平的模型,如人体姿态估计[7],[53],人脸识别[45],[48]等等。

图1.(a)示例图像和(b)它们的语义分割基础事实。 与图像级别类别标签和实例边界框相比,像素级标签提供对图像内容的更密集和全面的描述。

DCNNs的巨大成功也导致了另一个具有挑战性的视觉识别任务,称为语义分割。语义分割的目标是将语义类标签分配给图像中的每个像素,其中语义类通常包括不同范围的对象类别(例如,人,狗,公共汽车,自行车)和背景成分(例如天空,道路,建筑物,山)。如图1所示,语义分割的结果是每个语义类的像素级掩码,相比于图像分类给出的图像级别标签和通过对象检测预测的对象边界框它能够更全面地描述图像的内容。

这样一个详细的图像描述对于建立一个与人类视觉认知能力一样具有竞争力的智能系统是至关重要的。另外,由于计算机视觉应用需要全面理解视觉输入,例如医学图像分析,自动驾驶,机器人技术和人机交互等,因此对精确语义分割算法的需求不断增加。

然而,作为对其详细的高级预测能力的回报,语义分割涉及到几个需要解决的关键挑战。其中一类具有语义类别的显著的外观变化,这些变化是由在实际图像中经常观察到的大的类内变化、遮挡、变形、光照变化和视点变化引起的。对这些因素保持不变对于必须预测像素级别中的类别标签的语义分割尤其具有挑战性。而且,语义分割必须在预测期间考虑像素的类别标签之间的结构依赖性(即,将相同的类别标签分配给空间上相邻的像素),但是由于搜索空间可能过大,语义分割中的这种约束在实践中难以处理分割结果。
幸运的是,DCNNs为上述问题提供了解决方案。 DCNNs的丰富的分层特征表示对于显着的外观变化是强健的。此外,已经提出了几种DCNNs体系结构,通过隐式地考虑结构化依赖性[5],[32],[33]或明确地[27],[31],[57]来自然地预测结构化输出。此外,在训练期间,网络的特征表示和结构化预测以端到端的方式进行联合优化。所有这些因素对于克服前面提到的语义分割困难都是至关重要的。因此,DCNNs在语义分割方面已经取得了实质性的进展,在包括PASCAL可视对象类(VOC)[11]在内的公共基准上显著改进了以往基于手工特征的记录。
尽管DCNNs在公共基准测试中取得了巨大的成功,但仍然存在一个关键障碍,即它们在不受控制的现实环境中应用于语义分割:缺少带注释的训练图像。众所周知,由于DCNNs具有大量的可调参数,因此需要大量具有良好泛化性能的训练模型的注释数据。然而,对于语义分割而言,收集大规模注释是非常费力的,因为人们必须为每个图像的每个语义类别手动绘制像素级别的蒙版以执行注释。此外,收集用于语义分割的注释在某些应用中实际上受到限制。一个例子是医学图像分析,该领域的专业知识对于准确的注释是必不可少的。由于这些原因,现有数据集常常缺乏注释示例和类别多样性,并且难以在准确性和一致性方面保持高质量的分割注释。因此,扩展基于DCNNs的现有模型以覆盖更多类别并保持较高的精度并不容易。

为了解决与训练数据收集有关的问题并使语义分割更具可扩展性和普遍适用性,研究人员将解决的重点放在了弱监督学习上。在此设定中,目标是使用比像素标签弱得多的标注来训练强大的语义分割模型。图2说明了弱语义分割监督的例子。弱标注的明显优势是它们比标准分割注释的代价低得多。某些类型的弱注释(如图像级别类标签和边界框)甚至可以在现有的大规模数据集[10],[29]中用于图像分类和对象检测。因此,利用这种弱注释图像,我们可以大大扩大或容易地创建用于语义分割的训练数据集。弱监督语义分割的主要问题是如何填补监督水平与预测水平之间的差距。指示物体位置和形状的监控信号对于学习预测分割掩模至关重要,但在弱监督下部分或全部缺失。弱监督方法的成功在很大程度上取决于在训练过程中如何弥补缺失的信息。

图2.用于弱监督语义分割的各种弱注释的插图

本文的目的是介绍弱监督语义分割以及对这一研究领域最新方法的全面回顾。 特别是,我们将重点放在基于DCNNs的方法上。 在深度学习时代之前提出了弱监督方法[50] - [52],[56]。 他们尝试通过首先计算基于区域的分类分数并使用基于各种人工标注的视觉线索的局部图像区域之间的相似性对其进行进一步细化来尝试将像素与图像级分类标签相关联。 然而,由于缺乏健壮的外观模型,它们的性能通常受到限制。 另一方面,DCNNs提供更自然的方式将像素与图像标签相关联,并为外部建模提供更强大的特征表示。 此外,DCNNs具有足够的灵活性,可以集成各种类型的弱监督和可能有助于改善分割效果的附加信息。

DCNNs用于语义分割

本节概述了基于DCNN的语义分割方法。 语义分割的目的是推断图像中每个像素的语义类标签。 为了实现这一目标,许多现有的方法将任务作为密集的局部区域分类,并修改为图像分类设计的DCNNs,以预测输入图像中每个局部区域的分数。

图3.用于语义分割的流行DCNN体系结构的插图。 (a)完全卷积网络使所有网络组件完全卷积,从而将训练过的用于图像分类的CNN转换成本地图像区域上的类别分数。 来自较低层的可选跳过连接(虚线)用于重建由空间聚集丢失的空间信息。 (b)深度卷积编码器 - 解码器网络的网络结构。 在卷积网络之上,使用一堆去卷积层来使用许多网络参数重建精细对象分割掩模。

在这个方向上最流行的网络架构选择是完全卷积网络(FCN)[32]。 FCN是基于一个用于大规模图像分类预训练的DCNN,但是它的架构是完全卷积的(即没有全连接层),因为它将分类DCNN的全连接层解释为1times;1卷积滤波器,以便它可以处理任意大小的输入图像。然后网络的输出在图像上具有一种类别分数图的形式。由于输出分数图是低分辨率,由于网络中存在多个池操作,因此在类分数图顶部采用单个解卷积层将输出图的大小放大为输入图的大小。图3(a)显示了FCN的整体网络架构。由于网络的输出对应于像素级类别预测分数,因此可以通过使用像素级真实值标签计算每个像素位置上的分类损失来以端对端方式学习整个模型参数。此外,它还提供了一种有效的推理机制,无论其大小如何,它都可以直接生成具有单个正向传递的输入图像的像素级类别预测。

后来基于FCN架构的方法通过考虑低级别的图像结构和构建更深的网络架构来提高预测的准确性。改进预测标签的一种流行方式是基于图形模型(如全连接的条件随机场(CRF))应用后处理[23]。它将预测标签调整为与视觉上相似的像素一致,因此它鼓励推断的标签保留底层图像结构,如对象边界。具体而言,Chen等人[5]提出将网络的预测结果与全连接的CRF相结合,并通过求解基于CRF模型的优化问题来估计最终的像素方向标签。这种方法在[57]中通过分解CRF分解几步可微操作和使用单个神经网络对每一步进行建模来改进,其中所有网络都很好地集成到单个DCNN中以进行端到端训练。通过对输出单元之间的配对关系进行建模来考虑语义类之间的空间上下文,进一步扩展了整合CRF的想法[27],[31]。除了CRF之外,还有一些方法通过考虑多尺度预测来提高性能。例如,[5]采用一组卷积滤波器从多个比例采样来捕获具有可变大小的对象,而[6]在多个比例中执行语义分割,并通过加权求和来汇总结果,其中每个比例的权重也被预测由一个独立的模型。

另一方面,一些方法提出构建一个深度编码 - 解码器网络,以实现精确的每像素类别预测[33],[42]。图3(b)展示了深度编码器解码器网络的典型架构。与具有单个上采样层的FCN式架构相反,他们在编码器输出之上采用深解码器来恢复原始输入图像分辨率。具体而言,Noh等人[33]提出了一个反卷积网络,它具有编码器和解码器的对称体系结构,其中解码器由反卷积层和解卷积操作实现。在[42]中采用了类似的体系结构以及用于生物医学图像分割任务的高效数据增强技术。
即使在现实世界的图像上,这些方法在语义分割方面也是成功的[11],[29],当有足够多的训练图像时,像素方式的注释可用。但是,这些注释需要大量的标注成本,并且仅在具有有限数量的语义类别的少数数据集中可用。为了解决训练数据收集中的困难并为语义分割设计更灵活和可扩展的模型,已经提出了基于弱监督语义分割的方法来利用比像素方式更弱的标签。

弱监督语义分割

本节介绍弱监督语义分割,并讨论基于DCNNs的相关方法。弱监督语义分割的目标是利用弱标注而不是像素级标注来学习语义分割模型。用于语义分割的弱标签包括但不限于图2所示的图像级别标签、边界框、涂鸦和点监督,这些标签比像素级标签更容易收集,因为它们需要的注释成本少得多。例如,图像级别类标注的注释时间仅为像素级分割注释的十分之一[4]。因此,人们可以容易地建立用于大规模不同语义类别的弱注释图像数据集,并且这样的训练数据集因此将允许学习用于野外语义分割的模型。

弱监督语义分割的主要挑战是弱标签仅提供语义分割所需的部分监督。例如,图2中提供的弱标签都没有提供关于对象形状的信息,这是学习模型预测分割掩模所需的关键证据。因此,为了在弱标记数据中训练具有不完全监督的分割模型,应当在训练期间联合估计每个像素潜在的真实值以及模型参数。在下面的章节中,我们将介绍文献中使用的各种弱标签,并详细讨论相关的方法。

图像级别的类标签
图像级别类标签是语义分割弱监督的最简单形式,因为它仅指示图像中存在或不存在语义实体。因为它需要最少量的人工注释成本,并且已经可以在现有的大规模数据集(如ImageNet [10])中使用,所以图像级别标签在弱监督语义分割中得到了最广泛的应用。然而,因为关于目标对象的空间信息缺失,仅从图像级别标签学习分割网络是非常具有挑战性的。
一些现有的方法通过将像素级标签视为潜在变量来解决该问题,并且与潜在像素级标签一起优化分割网络的参数。具体而言,他们将DCNN卷积层的输出视为每个潜在像素标签的置信度分数。由于图像级别标签是这种弱监督设置中唯一可用的监督,因此它们使用全局池化操作(例如,最大池化或平均池化)来聚合所有像素上的输出分数以生成图像级别的分数。然后对网络进行训练,以使用图像级标签作为基础事实来最大化图像分类性能。在这个框架内,Pathak等人[37]将任务表述为多实例学习问题,其中应用全局最大池操作来执行约束,即每个图像应包含至少一个对应于正类的像素。以同样的动机,Papandreou等人 [35]采用基于期望最大化的递归细化过程,其中潜在像素级别标签由学习模型预测,并且反过来用于将模型更新为新的真实值注释。

由于图像级别标签的监督对于分割来说过于粗糙,所以在上述方法中获得的结果的质量通常不令人满意。通过引入更多线索来模拟物体位置和形状的监督,解决了这个问题。为了结合本地化提示,采用基于DCNN的区分性定位技术[58]。通过仔细研究每个隐藏单元对网络输出类别分数的贡献,可以识别图像中每个类别的判别性部分的粗略位置。然后,使用区分性定位的输出来选择指示语义类区域上的位置的种子,并且种子被扩展到相邻像素以估计类的像素方面的区域[22],[34],[46] 。为了结合形状信息,超像素被用作标签分配的单位[24],[38]。超像素是视觉外观(例如,颜色)相似的一组相邻像素,并且通常通过基于低级视觉相似性对像素进行聚类而获得。超像素获益于编码形状信息,因为它们自然地反映了像物体边界这样的低级图像结构。 Pinheiro和Collobert [38]采用超像素来平滑每个超像素内像素级的标签作为后处理。 Kwak等人[24]利用超像素作为DCNN中池操作的布局。另一个流行的方法来提炼像素水平预测是应用全连接的CRF,就像完全监督的方法一样。 CRF在相邻像素之间传播标签,并改进模型中的预测以覆盖更好的对象范围和形状。

虽然这些方法能够粗略地定位对象,但它们往往无法推断出精确的像素方向标签,因为它们往往只关注小的区分性部分(例如动物的头部)而不是整个物体。 这是因为他们在训练期间的目标是最小化分类损失,通过考虑可以与其他类别区分开来的小部分更容易实现。事实上,仅从图像正确的标签来估计像素级标签是一个非常不适合的问题。 为了减少粗糙图像级标签和精细的每像素标签之

全文共24533字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13155],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。