英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
深度实验室:具有深度卷积网络,atrous滤波卷积和完全连接的CRF的语义图像分割
作者:陈良杰,乔治·帕潘德里欧(George Papandreou),IEEE高级会员,Iasonas Kokkinos,IEEE会员,凯文·墨菲(Kevin Murphy)和艾伦·尤利(Alan L. Yuille)
摘要:在这项工作中,我们通过深度学习解决了语义图像分割的任务,并做出了三项主要贡献,这些贡献经实验证明具有实质性的实用价值。首先,我们用atrous滤波器突出卷积,或者叫“atrous滤波卷积”,作为密集的预测任务的一个好的工具。atrous滤波卷积允许我们显式控制深度卷积神经网络中计算特征响应的分辨率。它还使我们能够有效地扩大过滤器的视野,以合并更大的图片而无需增加参数的数量和计算量。其次,我们提出了多孔空间金字塔池(ASPP),以在多个尺度上稳健地分割对象。ASPP使用多个采样率和有效视场的过滤器探测传入的卷积特征层,从而以多个比例捕获对象和周边图像。第三,我们通过结合DCNN和概率图形模型的方法来改进对象边界的定位。池化层中通常采用的最大池化法和下采样组合实现不变性,但也会影响定位精度。我们通过将全响应层的响应与完全连接的条件随机场(CRF)结合起来克服这一问题,定性和定量地显示了条件随机场以提高定位性能。我们提出的“深入学习”系统提高了PASCAL VOC-2012语义图像分割任务的技术水平,在测试集中达到了79.7%的平均交并比,并在其中三个数据集上进行了改进,分别为:PASCAL-Context,PASCAL-Person -Part和Cityscapes。我们所有的代码都可以在线获得。
索引词-卷积神经网络,语义分割,atrous滤波卷积,条件随机场。
1引言
深度卷积神经网络(DCNNs)已引发急切的计算机视觉系统的性能需求,包括图像分类以及对象检测部分。以端到端的方式的特征训练中DCNN所取得的效果要比依赖手工制作的系统好得多,其成功的关键是DCNN对本地图像转换的内置不变性,这使深度学习网络能够学习更多的抽象数据响应。这种不变性显然是分类任务所希望的,但是却会妨碍诸如语义分割之类不需要空间抽样信息的密集预测任务。
另外,我们考虑了DCNN语义图像分割应用中的三个挑战:(1)降低特征分辨率,(2)多尺度对象的存在,以及(3)在DCNN不变时降低定位精度。接下来介绍我们在深度学习网络中处理这些挑战的方法。
第一个的挑战是由于在最初用于图像分类的DCNN的池化层上重复执行最大池化和向下采样(跨步)造成的。当以完全卷积的方式使用DCNN时,这会导致特征图的空间分辨率大大降低。为了克服这一障碍并有效地生成更密集的特征图,我们从DCNN的最后几个池化层中删除了下采样操作,在随后的卷积层中对滤波器进行了atrous,即在非零滤波器抽头之间插入孔(法语中为“trous”),从而以更高的采样率计算出了特征图。atrous滤波在信号处理方面具有悠久的历史,最初是为有效地计算未抽取的子波变换而开发的,也被称为“atrous算法”。前人在DCNN的集合处理中有过各种想法。在本次实验中,我们通过结合atrous滤波卷积来恢复全分辨率特征图,该方法将更密集地计算特征图,后一层对特征响应对原始图像大小进行简单的双线性插值。该方案为在密集的预测任务中使用反卷积层提供了一个简单而强大的替代方案。与具有较大过滤器的常规卷积相比,atrous滤波卷积可以在不增加计算量的情况下有效地增大过滤器的视野。
第二个挑战是由于存在多个维度的物体而引起的。解决此问题的一种标准方法是将DCNN重新缩放的版本聚合特征。我们证明了这种方法确实提高了我们系统的性能,但是以在输入图像的多个缩放版本上所有DCNN层都要计算特征响应为代价。取而代之的是,受空间金字塔池化的启发,我们提出了一种计算有效的方案,即在卷积之前以多倍速率对给定的特征层进行重采样。这样就可以用多个具有互补有效视场的滤镜来捕获原始图像,多尺度的审视物体。相比常规方案,我们有效地重采样特征,使用具有不同采样率的多个并行多孔卷积层来有效地实现此映射。我们将所提出的技术称为“空域金字塔池化”(ASPP)。
第三个挑战涉及以下事实:以对象为中心的滤波器要求空间变换具有不变性,从而限制了DCNN的空间精度。优化此问题的一种方法是在计算最终分割结果时使用全连接层从多个卷积层提取“超级序列”特征。我们探索了一种非常有效的替代方法:通过使用完全连接的条件随机场(CRF),提高了模型捕获精细细节的能力。CRF已广泛用于语义分割中,通过对图片中的像素和其边界的局部交互中使用多种方式组合捕获低级信息。这种方法增加工作的复杂性,并提出调整各层的依赖性和高层对低层的管理。我们使用提出的完全连接的成对CRF进行有效的计算,并能够捕获细微的边缘细节,同时还满足远距离依赖性。该模型在展示中改善了像素级分类器的性能。在这项工作中,我们证明了与基于DCNN的像素等级分类结合使用可以带来最好的结果。
拟议的深度学习模型的高级图解如图所示。在图像分类任务中训练的深度卷积神经网络(在这项工作中为VGG-16或ResNet-101)被重新用于语义分割任务,通过将所有完全连接层转换为卷积层(即是全卷积网络),以及通过atrous滤波卷积层提高特征分辨率,允许我们计算原始网络中每8个像素而不是每32个像素对特征的响应。将分数图atrous8倍以达到原始图像分辨率,从而将采样图输入到完全连接的CRF网络,以细化分割结果。
从实际的角度来看,我们的深度学习系统的三个主要优点是:(1)速度:借助atrous卷积,我们密集的DCNN在NVidia Titan X GPU上以8 FPS的速度运行,而对于在CPU上完全连接的CRF的平均运算时间需要0.5秒。(2)准确性:我们在一些具有挑战性的数据集上,包括PASCAL VOC 2012,PASCAL-Context,PASCALPerson-Part和Cityscapes获得了较好的结果。(3)简单性:我们的系统由两个非常易于建设的模块DCNN和CRF组成。
与我们在原始会议出版物中报告的第一个版本相比,我们在本文中介绍的更新的深度学习系统具有一些改进。我们的新版本可以通过多尺度输入处理或ASPP更好地在多个尺度上分割对象。通过学习最新的残差神经网络与图像分类DCNN,我们构建了DeepLab的残差网络变体,与基于VGG-16的原始模型相比,该算法具有更好的语义分割性能。最后,我们提出了对多种模型变体的更全面的实验评估,并报告了PASCAL VOC 2012基准测试的最新结果和其他艰巨任务。我们通过扩展Caffe框架来实现建议的方法。我们在以下网站上共享我们的代码和模型http://liangchiehchen.com/projects/ DeepLab.html.
2相关工作
在过去的十年中,大多数成功的语义分割系统都依赖于手工制作的特征以及平面滤波器,例如Boosting,Random Forests和Support Vector Machines等。通过周边检测和结构化预测技术已实现了实质性的改进,但是这些系统的性能始终受到有限的特征表现能力的束缚。在过去的几年中,深度学习在图像分类中获得突破,艰巨任务转移到语义分割上。由于此任务既涉及细分又涉及分类,因此现在的问题是如何处理这两个方面。
基于DCNN的典型语义分割系统的第一个类方法通常采用一连串的自下而上的图像分割,然后再进行基于DCNN的区域分类。例如,J. T. Barron等人传递的边界框和隐藏区域作为DCNN的输入,以将形状信息合并到分类过程中。同样,M. Mostajabi依赖于像素间调整进行图像分割。即使这些方法可以通过良好的细分带来的清晰边界,但无法从其任何错误中恢复原图像。
第二类方法使用含DCNN特征的卷积计算进行密集图像标记,并将标记与第一类独立获得的分割相结合。他们大多以多种图像分辨率进行密集图像标记,然后采用分割树来平滑预测结果。最近,B. Hariharan提出跳过输入层并在DCNN中连接计算出的中间特征图,以进行图像分类,此外还J.Dai提议按区域合并中间的特征图。这些方案仍采用与DCNN分类器结果分离的分割算法,因此可能会由于冒险而做出过早的决策。
第三类方法使用DCNN直接提供密集的类别级图像标签,这甚至有可能完全放弃分割图像。这种无分割的方法直接将DCNN应用于整个图像,即是将DCNN的最后完全连接层转换为卷积层。为了解决导言中概述的空间定位问题,J. Long对中间特征图的值进行atrous卷积和连接,通过将粗略结果传播到另一个DCNN来将从粗略预测结果转化为精细的预测结果。如引言中所述,我们在这些方案的基础上,通过对特征分辨率施加控制,引入多尺度池化技术以及在DCNN顶部用密集连接CRF来进行更深入研究。我们根据实验数据表明,这种方法有更好的分割结果,尤其是在分割对象边缘轮廓时。DCNN和CRF的组合当然不是什么新鲜事物,但是以前的工作仅尝试了局部连接的CRF模型。因此,他们的模型受到超像素计算错误或长期依赖关系的限制。本次使用CRF作为基于DCNN的重排系统的原理,而将超像素视为局部对CRF和使用图像分割进行离散推理的节点。我们的方法将每个像素都视为DCNN接收一元电势的CRF节点。至关重要的是,我们采用的是完全连接的CRF模型中的高斯CRF,而舍弃了捕获长期依赖关系,因而该模型也可以进行快速均值推断。我们注意到,对于传统的图像分割任务,均值推断已经得到了广泛的研究,但是这些较旧的模型通常仅限于短距离连接。在独立工作中,S. Bell使用非常相似的紧密连接的CRF模型来修正DCNN的结果,以解决材料分类问题。然而,他的DCNN模块仅通过稀疏点监督方式而不是每个像素的密集监督来训练。
图1 深度卷积神经网络模型插图。
自从该工作的第一个版本公开发布以来,语义分段的领域已经有了很大的发展。多个小组取得了重要进展,显着提高了PASCAL VOC 2012语义细分基准的门槛,这反映了基准排行榜中的高水平活动。有趣的是,大多数表现最佳的方法都采用了深度学习系统的一个或两个关键要素:用Atrous卷积进行有效的密集特征提取和通过完全连接的CRF对原始DCNN分数进行细化,下面概述一些最重要和有趣的进展:
最近在一些相关的工作中探讨了针对结构化预测的端到端训练。当我们将CRF作为后处理方法时,G. Lin成等人功地追求了DCNN和CRF的联合学习。特别是,S. Zheng等人展开了CRF平均场推断步骤,以将整个系统转换为端到端的可训练前馈网络,而Z. Liu则近似了密集CRF平均场推断的一次迭代。V. Koltun通过具有可学习过滤器的卷积层。G. Lin等人追求的另一个富有成果的方向是通过DCNN学习CRF的成对项,从而以更大的计算成本为基础显着提高了性能。在不同的方向上,L.-C. Chen用更快的域变换模块代替了在均值推断中使用的双边过滤模块,从而提高了速度并降低了整个系统的内存需求,而G. Bertasius等人结合进行了基于边缘检测的语义分割。
在许多论文中都采用弱监督方法,从而忽视了整个训练集都可以使用像素级语义注释的假设,与弱监督的DCNN预准备系统相比,取得了明显更好的结果。在另一项研究中,B. Hariharan使用联合处理对象和语义分割来实例分割。
Atrous卷积最初是为了在“algorithme atrous”算法中有效地计算未抽取的小波变换。Atrous卷积还与多速率信号处理中基于输入信号和滤波器采样率的相同相互作用密切相关。 Atrous卷积是最初是我们在G. Papandreou中使用的一个术语。同一操作后来被称为“dilated卷积”,由于该操作对应于向atrous滤波而被推广。在DCNNs系统中,很多人在进行密集特征提取之前都使用过相同的操作。除了分辨率的提高以外,atrous卷积还使我们能够扩大过滤器的视野,以纳入更大的空间。F. Yu进一步发展了这种方法,他们采用了一系列串行圆滑的卷积层,并增加了速率以聚合多尺度边界区域。其提出的捕获多尺度对象和边界空间的atrous金字塔型池化方案还采用了具有不同采样率的多空间atrous卷积层。但是本次我们并行布置而不是串行布置池化。有趣的是,圆环卷积技术还被用于更广泛的用途,例如对象检测,实例级分割,视觉问答和视觉分流。
实验结果还表明,将更高级的图像分类DCNN集成到深度学习网络中,例如K. He的残差网,会得到更好的结果。Z. Wu也独立地观察到了这一点。
3实现方法
3.1 Atrous卷积用于密集特征提取和视野扩大
通过完全卷积的方式部署DCNN,已证明可以简单而成功地解决DCNN用于语义分割或其他密集预测任务的问题。然而,这种网络的卷积层上最大池化和步幅的重复组合显着降低了所得特征图的空间分辨率,每个方向的分辨率通常降低32倍。补救措施是使用“反卷积”层,但是这需要额外的内存和时间。
我们提倡使用atrous卷积来解决该问题,atrous卷积原本用于有效计算未抽取的小波变换,之前也曾被P. Sermanet等人使用过。该算法使我们能够以任何所需的分辨率计算任何层的响应,对网络进行了培训后,不仅可以之后使用,也可以与培训无缝集成。
首先考虑一维信号,具有长度为K的滤波器w [k]和一维输入信号x [i]的atrous卷积的输出y [i]定义为:
(1)
速率参数r对应于我们对输入信号进行采样的步幅。标准卷积是比率r = 1的一种特殊情况。
(a)在低分辨率输入特征图上进行标准卷积的稀疏特征提取
(b)在高分辨率输入特征图上应用具有r = 2的atrous卷积的密集特征提取
图2 一维卷积的插图。
图3 二维空间中atrous卷积的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239515],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。