英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基于全卷积神经网络的语义分割方法
摘要
卷积神经网络是强大的计算机视觉模型,可产生具有层次结构的特征。我们证明了卷积神经网络经过端到端、像素到像素的训练可以超过最先进的语义分割技术。我们的核心成果是建立“完全卷积”的神经网络,该网络可以接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。我们定义并详解了全卷积网络的空间,说明了其在空间密集型预测任务(预测每个像素所属的类别)中的应用,并阐述了与先验模型的联系。我们将当代的分类网络(AlexNet [20],VGG net [31]和GoogLeNet [32])改编成完全卷积的网络,并通过对分段任务进行微调[3] 传递它们的学习表现到分割任务中。接着我们定义了一个新颖的结构,将自较深的粗糙层的语义信息与来自较浅的精细层的表征信息相结合,以产生准确而详细的细分。我们的完全卷积网络成为了对PASCAL VOC(相对于2012年的62.2%的精确度平均值提高了20%),NYUDv2和SIFT Flow最出色的分割方式,而对于某些典型图像,推理所需的时间不到五分之一秒。
1.简介
卷积网络正在推动识别技术的进步。 卷积网络不仅改善了全图图像分类[20,31,32],而且在结构化输出的本地任务上也取得了进展。 包括目标检测边界框[29、10、17],部分和关键点预测[39、24]以及局部通信[24、8]方面都取得了进步。
从粗略推断到精细推断的下一步就是要对每个像素进行预测。先前的方法已经使用卷积网络进行语义分割[27、2、7、28、15、13、9],其中每个像素都用其封闭的对象或区域的类别进行标记,但是存在一定的缺点。
图一:完全卷积网络可以有效地对语义分割这类的逐像素任务进行密集的预测。
我们研究表明,完全卷积网络(FCN)训练端到端,语义分割上的像素到像素超过了现有技术水平,而无需其他的操作。我们认为,这是第一次训练端到端(1)的FCN在像素级别的预测,而且来自监督式预处理(2)。现有完全卷积网络可以从任意尺寸的输入预测密集输出。 学习和推理都是通过密集的前馈计算和反向传播在整个图像上进行的。网内上采样层能在像素级别通过下采样池化进行预测和学习。
这种方法既快速又绝对有效,并且没有其他工作中的并发问题。 逐块训练(Patchwise training)很常见[27、2、7、28、9],但缺乏完全卷积训练的效率。 我们的方法不是利用预处理或者后期处理解决并发问题,包括超像素 (superpixels)[9,17] ,建议(proposals)[17,15] ,或者对通过随机域事后细化或者局部分类 (post-hoc refinement by random fields or local classfiers)[9,17] 。 通过将分类网络重新解释为完全卷积网络并微调其学习表示,我们的模型将分类[20,31,32]的最新成果移植到密集预测。 相比之下,先前的工作是没有监督的预训练的小型卷积网络[7,28,27]。
语义分割面临着语义信息和位置之间的固有关联:全局信息解决全局的信息,而局部信息解决局部的信息。 深度特征层次结构通过非线性局部到全局锥形映射(nonlinear local-to-global pyramid)编码位置和语义信息。 在第4.2节中,(见图3)定义了一种利用集合了深、粗层的语义信息和浅、细层的表征信息的特征谱的跨层架构。
在下一节中,我们将对深度分类网络,FCN和使用卷积网络进行语义分割的最新方法进行回顾。 以下部分解释了FCN设计和密集预测折衷的方案,将我们的架构与网内上采样和多层组合相结合,并描述了我们的实验框架。最后,我们演示了PASCAL VOC 2011-2,NYUDv2和SIFT Flow的最新结果。
2.相关工作
我们的方法借鉴了深度神经网络在图像分类[20,31,32]和转移学习[3,38]方面的最新成果。 首先我们在各种视觉识别任务上证明了转移[3,38],然后进行检测,并在混合建议分类(proposal-classification)模型[10,15,13]中同时进行了实例操作和语义分割。 我们现在重新设计和微调分类网络来指导语义分割的密集预测。我们绘制了FCN的空间框架,并在此框架中引用了历史模型和最新模型。
全卷积神经网络据我们所知,最早将卷积网络扩展到任意大小的输入的想法由在Matan等人提出。 [26]他们扩展了经典的LeNet 网络结构[21]以识别数字字符串。 因为它们的网络仅限于一维输入字符串,所以Matan等人使用维特比(Viterbide)编码获取其输出。 Wolf和Platt [37]将卷积神经网络输出扩展为邮政地址块四个角的检测分数的二维图。 这些历史操作都是为了检测而进行推理和学习的全卷积。Ning等人[27] 用完全卷积对秀丽隐杆线虫组织进行粗分类。
全卷积计算在当今许多的多层次网络也被利用。比如Sermanet等人的滑动窗口检测[29],Pinheiro和Collobert [28]进行语义分割,以及Eigen等人进行图像还原[4]都使用了全卷积推理。 虽然完全卷积训练是很少见的,但是也被汤普森等人有效地使用[35] 一种端到端的局部检测和姿态估计的空间模型方法,尽管他们没有进行阐述或分析。
此外,He等人 [19] 在特征提取时丢弃了分类网的无卷积部分。他们结合建议(proposals)和空间金字塔池来产生一个局部的、固定长度的特征用于分类。尽管快速且有效,但是这种混合模型不能进行端到端的学习。
基于卷积网的密集预测近期的一些著作已经将卷积网应用于密集预测问题,包括Ning等人的语义分割 [30] ,Farabet等人 [9] 以及Pinheiro和Collobert [31] ;Ciresan等人的电子显微镜边界预测 [3] 以及Ganin和Lempitsky [11] 的通过混合卷积网和最邻近模型的处理自然场景图像;还有Eigen等人 [6,7] 的图像修复和深度估计。这些方法的相同点包括如下:
·限制容量和接收域的小模型(small models restricting capacity and receptive fields)
·逐块训练 [30,3,9,31,11](patchwise training)
·超像素投影的预处理,随机场正则化、滤波或局部分类 [9,3,11](post-processing by superpixel projection, random field regularization, filtering, or local classification)
·输入移位和dense输出的隔行交错输出 [32,31,11](input shifting and output inter lacing for dense output)
·多尺度金字塔处理 [9,31,11](multi-scale pyramid processing)
·饱和双曲线正切非线性 [9,6,31](saturating tanh nonlinearities)
·集成 [3,11](ensembles)
然而我们的方法确实没有这些相同点。但是我们研究了逐块(patchwise)训练 (3.4节)和从FCNs的角度出发的“shift-and-stitch”密集输出(3.2节)。我们也讨论了网内上采样(3.3节),其中Eigen等人[7]的全连接预测是一个特例。
和这些现有的方法不同的是,我们改编和扩展了深度分类架构,使用图像分类作为监督预处理,和从全部图像的输入和ground truths(用于有监督训练的训练集的分类准确性)通过全卷积微调进行简单且高效的学习。
Hariharan等人 [17] 和Gupta等人 [15] 也改编深度分类网到语义分割,但是是应用了混合建议分类(proposal-classifier)模型。这些方法通过采样边界框和区域建议(region proposal)对R-CNN系统进行微调[12] ,用于检测、语义分割和实例分割。这两种办法都不能进行端到端的学习。他们分别在PASCAL VOC和NYUDv2实现了最好的分割效果,所以在第5节中我们直接将我们的独立的、端到端的FCN和他们的语义分割结果进行比较。
我们通过跨层和融合特征来定义一种非线性的局部到整体的表述用来协调端到端。在现今的工作中Hariharan等人 [18] 也在语义分割的混合模型中使用了多层结构。
3.全卷积神经网络
卷积网络中的每一层数据都是尺寸为htimes;wtimes;d的三维数组,其中h和w是空间维,而d是特征或通道维。 第一层是图像,像素为htimes;w,颜色通道为d。 较高层中的位置对应于它们在路径上连接到的图像中的位置,称为它们的接收域。
卷积网是以平移不变形作为基础的。其基本组成部分(卷积,池化和激励函数)作用在局部输入域,只依赖相对空间坐标。在特定层记X_ij为在坐标(i,j)的数据向量,在下一层有Y_ij,Y_ij的计算公式如下:
其中k为卷积核尺寸,s是步长或下采样因素,f_ks决定了层的类型:一个卷积的矩阵乘或者是平均池化,用于最大池的最大空间值或者是一个非线性逐元素的激励函数,亦或是其他种类的层等等。
当卷积核尺寸和步长遵从转换规则,这个函数形式被表述为如下形式:
一般的深层网络计算一般的非线性函数,而只有这种形式的层的网络计算非线性滤波器,我们称其为深层滤波器或完全卷积网络。 FCN自然可以在任何大小的输入上运行,并产生对应的(可能是重新采样的)空间尺寸的输出。
由FCN组成的实值损失函数定义任务。 如果损失函数是一个最后一层的空间维度总和,
它的梯度将是每个空间分量的梯度之和。所以在全部图像上的基于l的随机梯度下降计算将和基于l的梯度下降结果一样,将最后一层的所有接收域作为minibatch(逐块处理)。
在这些接收域重叠很大的情况下,前反馈计算和反向传播计算整图的叠层都比独立的patch-by-patch有效的多。
接下来,我们将说明如何将分类网络转换为可生成粗糙输出图的完全卷积网络。 对于逐像素预测,我们需要将这些粗略输出映射回原像素。 3.2节介绍了为此目的引入的快速扫描[11]。 通过将其重新解释为等效的网络修改,我们可以深入了解此技巧。 作为一种有效的替代方法,我们在第3.3节中引入了卷积层以进行上采样。 在第3.4节中,我们考虑通过逐块采样进行训练,并在4.3节证明我们的全图式训练更快且同样有效。
3.1改编分类用于密集预测
典型的识别网络,包括LeNet [21],AlexNet [20]及其更多层的后继者[31、32],表面上采用固定大小的输入并产生非空间输出。 这些网络的全连接层具有固定的尺寸并丢弃了空间坐标。 但是,这些全连接层也可以看作是覆盖整个输入区域的内核的卷积。 这样做会将它们转换为全卷积神经网络,该网络可以接受任何大小的输入并输出分类图。 图2说明了这种转换。
图二. 将全连接层转换为卷积层可以使分类网络输出热图。 增加层数和空间损失(如图1所示)将建立高效的端到端的密集学习机制。
此外,虽然生成的映射等效于特定输入补丁的原始网络的评估,但在这些补丁的重叠区域对计算进行了高额摊销。 例如,AlexNet花费1.2毫秒(在典型的GPU上)来推断227times;227图像的分类分数,而完全卷积网络花费22ms从500times;500图像产生10times;10的输出网格,这比朴素的方法1快5倍以上。
空间输出图与卷积模型的结合使它们成为诸如语义分割之类的密集问题的自然选择。 由于每个输出单元都有可用的正确标注(ground truth),因此正向和反向传播都简洁直接,并且都利用了卷积的固有计算效率(和主动优化)。 对于AlexNet示例,相应的反向传播时间对于单个图像是2.4毫秒,对于完全卷积的10times;10输出映射是37毫秒,从而导致加速效果类似于正向传播。
尽管我们将分类网络重新构建为完全卷积并可以得到任意输入尺寸的输出图,但通常我们会通过二次采样来减小输出尺寸。 分类网下采样可保持过滤器尺寸较小且计算要求合理。 这使全卷积神经网络的输出变得粗糙,我们会通过输入尺寸因为一个和输出单元的接收域的像素步长等同的因素来降低它。
3.2 Shift-and stitch是滤波稀疏
通过将输入的平移版本的输出拼接在一起,可以从粗略的输出中获得密集预测。 如果输出降采样由因子f决定,则将输入向右平移x个像素,向下平移y个像素。 其中0le;x,y lt;f。 处理所有f^2个输入,然后对输出进行结合,以使预测对应于其接收域中心的像素。
尽管单纯地执行这种转换增加了f^2的这个因素的代价,有一个非常有名的技巧用来高效地产生完全相同的结果 [13,32] ,这个在小波领域被称为多孔算法 [27] 。考虑一个层(卷积或者池化)中的输入步长为s,和后面的滤波权重为f_ij的卷积层(忽略不相关的特征维数)。将较低层的输入步幅设置为1将会使得其上采样输出由因子s影响。 但是,将原始滤波器与高采样输出进行卷积不会产生与平移和拼接相同的结果,因为原始的滤波只看得到(已经上采样)输入的简化的部分。为了重现这种技巧,通过扩大来稀疏滤波,如下:
除非i和j都为0,则s能除以i和j。重现该技巧的全网输出需要重复一层一层放大这个滤波器,直到所
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235499],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。