英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
FastFCN: 对语义分割中扩张卷积的重新思考
Huikai Wu, Junge Zhang, Kaiqi Huang
中国科学院自动化研究所
Kongming Liang, Yizhou Yu
深度人工智能实验室
摘要
现代的语义分割方法通常采用在主干上展开卷积来提取高分辨率的特征图,这带来了沉重的计算复杂度和内存占用。为了替代耗时和内存消耗的扩展卷积,我们提出了一种新的联合上采样模块,称为联合金字塔上采样(JPU),该模块将提取高分辨率地物图的任务转化为联合上采样问题。该方法在不损失性能的前提下,将计算复杂度降低了三倍以上。实验表明,JPU优于其他上采样模块,可以接入现有的多种方法中,降低计算复杂度,提高性能。通过将扩展卷积替换为所提出的JPU模块,我们的方法在Pascal上下文数据集(mIoU为53.13%)和ADE20K数据集(final score为0.5584)中获得了最先进的性能,同时运行速度提高了3倍。代码可以在https://github.com/wuhuikai/FastFCN找到。
1.介绍
语义分割[23,40,4]是计算机视觉的基本任务之一,其目标是为图像的每个像素分配一个语义标签。现代方法通常使用一个完整的卷积网络(FCN)[22]来解决这个任务,在几个分割基准中取得了巨大的成功。
原始的FCN是由Long等人提出的。[22]是由卷积神经网络(Convolutional Neural Network, CNN)[16, 15]设计用于图像分类的。该算法继承了图像分类设计的思想,采用步进的方法对输入图像进行降采样卷积和/或空间池化层,最终得到低分辨率的特征图。虽然最终的feature map编码了丰富的语义信息,但是丢失了精细的图像结构信息,导致对物体边界的预测不准确。如图1a所示,原始的FCN通常对输入图像进行5次降采样,最终的特征图的空间分辨率降低了32倍。
为了获得高分辨率的最终特征图,[3,28,18,30,27]使用原始的FCN作为编码器来捕获高级语义信息,并设计了一个解码器,通过结合编码器的多级特征图来逐步恢复空间信息。如图1b所示,我们将这种方法称为编码器解码器,解码器产生的最终预测具有高分辨率。另外,DeepLab[5]从原来的FCN中删除了最后两个下采样操作,并引入了膨胀(膨胀)卷积来保持接收域不变。1 在DeepLab之后,[38,6,36]在最终的特征图上使用了一个多尺度的上下文模块,在几个分割基准上显著优于大多数EncoderDecoder方法。如图1c所示,经过扩展的FCN中最后一张地物图的空间分辨率是原始FCN的4倍,因此保留了更多的结构和位置信息。
扩展卷积在保持最终特征图的空间分辨率方面起着重要的作用,与编码器和解码器中的大多数方法相比,它具有更好的性能。然而,引入的扩展卷积带来了沉重的计算复杂度和内存占用,这限制了许多实时应用程序的使用。以resnet - 101[13]为例,与原FCN、DilatedFCN中的23个剩余块(69个卷积层)需要多4倍的计算资源和内存使用量,而3个剩余块(9个卷积层)则需要多4倍的计算资源和内存使用量。需要16倍的资源。
我们的目的是解决上述问题所造成的扩张卷积在本文。为此,我们提出了一种新的联合上采样模块来代替耗时和内存消耗的扩展卷积,即联合金字塔上采样(JPU)。因此,我们的方法以原始的FCN为骨干,同时使用JPU对输出步幅(OS) 32的低分辨率最终特征图进行上采样,得到高分辨率的特征图(OS=8)。从而大大减少了整个分割框架的计算时间和内存占用。同时,用所提出的JPU代替膨胀卷积不会造成性能损失。我们认为这是由于JPU能够跨多级特征映射利用多尺度上下文。
为了验证该方法的有效性,我们首先进行了一个系统的实验,结果表明所提出的JPU可以在几种常用的方法中代替扩张卷积而不会造成性能损失。然后,我们在几个分割基准上测试了该方法。结果表明,该方法在运行速度提高3倍以上的情况下,达到了最优的性能。具体来说,我们在Pascal上下文数据集[23]上大大超过了所有的基线,达到了最先进的性能,mIoU达到了53.13%。在ADE20K数据集[40]上,我们获得了42的mIoU。75%,以ResNet- 50为骨干,在val集上创建一个新的记录。此外,我们使用ResNet-101的方法在ADE20K数据集的测试集中实现了最先进的性能。
综上所述,我们的贡献有三层,即:(1)我们提出了一个计算效率高的联合上采样模块JPU来代替在主干中耗时、耗内存的扩张卷积。(2)基于该算法可使整个分割框架的计算时间和内存占用减少3倍以上,同时具有较好的性能。(3)无论是Pascal上下文数据集(mIoU, 53.13%)还是ADE20K数据集(mIoU, 42),我们的方法都达到了最新的技术水平。75%,以ResNet-50作为val集的主干,最终得分为0。5584和测试集上的ResNet-101)。
图1:不同类型的网络用于语义分割。(a)是原始的FCN, (b)采用编码器-解码器的风格,(c)使用扩展卷积来获得高分辨率的最终特征图。彩色效果最佳。
2.相关工作
在本节中,我们将首先概述语义分割的方法,这些方法可以分为两个方向。然后介绍了有关上采样的相关工作
2.1语义分割
FCNs[22]在语义分割方面取得了巨大的成功。继FCN之后,有两个突出的方向,即扩展FCN和EncoderDecoder。Dilated- FCNs[11, 34, 7, 6, 38, 36, 5]利用扩张卷积来保持接收视场,并使用多尺度上下文模块来处理高级特征图。另外,EncoderDecoders[24, 28, 18, 1, 26, 12, 33, 37]提出利用编码器来提取多层次的feature map,然后将这些feature map结合到解码器的最终预测中。
为了在高分辨率的最终特征图上捕获多尺度上下文信息,PSP- Net[38]在多个网格尺度上执行池操作,而DeepLabV3[6]采用不同速率的并行卷积命名为ASPP。另外,EncNet[36]利用上下文编码模块来捕获全局上下文信息。与之不同的是,我们的方法提出了一个联合的upsampling模块JPU来代替DilatedFCNs骨干中的扩张卷积在不损失性能的前提下,大大降低了计算复杂度。
为了逐步恢复空间信息,[28]引入了跳跃连接来构建U- Net,它结合了编码器的特性和相应的解码器的激活。[18]提出了一种多路径优化网络,它显式地利用了下行采样过程中所有可用的信息。DeepLabV3 [8]结合了DilatedFCN和EncoderDecoder的优点,其中使用DeepLabV3作为编码器。我们的方法是对DeepLabV3 的补充,可以在不损失性能的情况下减少DeepLabV3的计算量。
图2:我们方法的框架概述。我们的方法使用与原始FCN相同的主干。在主干之后,提出了一种新的向上采样模块,称为联合金字塔向上采样(JPU),它以最后三个特征图为输入,生成一个高分辨率的特征图。然后使用多尺度/全局上下文模块生成最终的标签映射。彩色效果最佳。
2.2.上采样
在我们的方法中,我们提出了一个以高分辨率地形图为指导的低分辨率地形图的上采样模块,该模块与联合上采样和数据依赖上采样密切相关。
联合上采样在图像处理的文献中,联合上采样的目的是利用制导图像作为先验,将结构细节从制导图像转移到目标图像。[17]构造了一个基于CNNs的联合滤波器,该滤波器学习恢复制导图像中的结构细节。[31]提出了一种端到端可训练的引导滤波模块,对低分辨率图像进行有条件的采样。我们的方法与上述方法相关。然而,所提议的JPU是为处理具有大量通道的特征图而设计的,而[17,31]是专门为pro-处理三通道图像,在高维地形图中无法捕捉复杂的关系。此外,我们的方法的动机和目标是完全不同的。
DUpsampling[29]也与我们的方法有关,它利用了分割标签空间的冗余,能够从CNNs的低分辨率输出中恢复像素级的预测。与我们的方法相比,DUpsampling对标签空间有很强的依赖性,这种依赖性很难推广到更大或更复杂的标签空间。
3方法
在本节中,我们首先介绍最流行的语义分割方法,即DilatedFCNs。在此基础上,提出了一种新的联合向上采样模块——联合金字塔向上采样(JPU),对扩展后的网络结构进行了改进。最后,我们详细讨论了所提出的JPU,在此之前,简要介绍了联合上采样、扩展卷积和步幅卷积。
3.1 DilatedFCN
Long等人利用深度CNNs进行语义分割。[22]将设计用于图像分类的CNN转换成FCN。以ResNet-101为例,原始的CNN包含5个卷积阶段,一个全局平均池化层和一个线性层。为了构建一个FCN,将全局平均池化层和线性层替换为卷积层,卷积层用于生成最终的标签映射,如图1a所示。每两个之间使用连续卷积阶段、跨步卷积和/或空间池化层,得到5个空间分辨率逐渐降低的特征图。
FCN中最后一个feature map的空间分辨率降低了32倍,导致对位置和细节的预测不准确。为了获得最终的高分辨率特征图,DeepLab[5]删除了最后两个特征图之前的下行采样操作,如图1c所示。将最后两个卷积阶段的卷积层替换为扩张卷积,以保持接收视野,称为扩张- FCN。最后一个feature map的分辨率降低了8倍,保留了更多的位置和细节信息。在DeepLab之后,[38,6]提出了一个多尺度上下文模块,从最后一个feature map中获取上下文信息,在多个分割基准中取得了巨大的成功。
3.2 我们方法的框架
为了获得高分辨率的最终特征图,DilatedFCN中的方法将最后两个向下采样操作从原始FCN中删除,这两个操作由于扩大了特征图而带来了沉重的计算复杂性和内存占用。在这篇论文中,我们的目标是寻找一种替代的方法来近似最终的特征图。同时,我们期望我们的方法的性能与原来的膨胀模型一样好。
为了达到这个目的,我们首先将所有的stride convolutions用DilatedFCN去除,而将所有的dilated convolutions用regular convolution layers替换。如图2所示,我们方法的主干与原始FCN相同,其中五幅feature map的空间分辨率逐渐降低了2倍。为了得到一个与最终的特征图相似的特征图,我们提出了一个新的模块,叫做联合金字塔上采样(JPU),它以最后三个特征图(Conv3minus;Conv5)为输入。然后使用一个多尺度上下文模块(PSP [38]/ASPP[6])或一个全局上下文模块(编码[36])来产生最终的预测。
与DilatedFCN相比,当主干为ResNet-101时,我们的方法在23个剩余块(69层)中占用4倍的计算和内存资源,在3个块(9层)中占用16倍的计算和内存资源。因此,我们的方法比DilatedFCN运行得快得多,同时消耗的内存更少。
3.3 联合金字塔上采样
所提出的JPU被设计用来生成一个特征图,该特征图近似于从扩展的fcn主干中激活的最终特征图。这个问题可以重新表述为联合上采样,然后由专为这个任务设计的CNN解析。
3.3.1背景
联合上采样对于低分辨率的目标图像和高分辨率的制导图像,联合上采样的目的是通过从制导图像中转移细节和结构来生成高分辨率的目标图像。一般情况下,低分辨率目标图像y是通过对低分辨率制导图像xl进行变换f(·)得到的,即l yl = f (xl)。鉴于xl和我们,我们需要获得一个变换(·)circ;近似f (·), f的计算复杂性(·)circ;远低于f (·)。例如,如果f(·)是一个多层感知器(MLP),那么f(·)circ;可以简化为一个线性变换。高分辨率的目标图像彝语然后通过应用f(·)circ;xh图像高分辨率的指导,即。h 本产品= f (xcirc;h)。形式上,给定xl、yl、xh,联合上采样定义如下:
yh = circ;f(xh), wh
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[254450],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。