英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
全卷积的实例感知语义分割
Yi Li1;2lowast; Haozhi Qi2lowast; Jifeng Dai2 Xiangyang Ji1 Yichen Wei2
1Tsinghua University 2Microsoft Research Asia
fliyi14,xyjig@tsinghua.edu.cn, fv-haoq,jifdai,yichenwg@microsoft.com
摘要
我们提出了首个全卷积端到端的实例感知语义分割任务的解决方案。它继承了FCNs对语义划分[29]的所有优点和实例掩码[5]的建议。它可以探测和分割对象实例,并对其进行模拟。通过引入正性的内部\外部得分图,在两个子任务之间以及所有感兴趣的区域之间,充分地共享底层的卷积表示。该网络高度集成,在精度和效率方面都达到了最先进的性能。他以巨大的优势赢得了COCO2016 分割竞赛。代码将在https://github.com/daijifeng001/TA-FCN上发布。
- 介绍
完全卷积网络(FCNs)[29]已经在最近的语义图像分割领域占据了主导地位。FCN获取任意大小的输入图像,应用一系列的卷积层,并为所有语义类别生成每个像素的可能性得分图,如图1(a)所示。由于简单、效率、本地权重等卷积的共享属性,FCNs提供了一种准确、快速、语义分割的端到端解决方案。
然而,传统的FCNs并不适用于实例感知的语义分割任务,它需要对单个对象实例进行检测和分割。限制是与生俱来的。因为卷积是平移不变的,相同的图像像素接收相同的响应(因此是分类得分),而不管它在上下文中的相对位置。然而,基于实例的语义分割需要在区域层次上进行操作,而相同的像素在不同的区域具有不同的语义。这个运行状态不能在整个图像上由单个FCN进行建模。问题见图2。
为了解决这个问题,需要不同的平移属性。在一个主流的实例感知语义分割方法中[7,16,8],通过采用不同类型的子网络,3个阶段:1)在整个图像中应用FCN来生成中间及共享特征图;2)从共享特征图中,一个池化层将每个感兴趣的区域(ROI) warp为固定大小的per-ROI特征图[17,12];3)在最后一个网络中,一个或多个全连接层将per-ROI特征图映射转换为per-ROI掩码。注意,最后一步在全连接层中引入了可变的平移属性。
这种方法有几个缺点。首先,由于特征的转化和改变,对ROI进行池化会损失空间细节信息,但是,对于全连接层来说,需要获得固定大小的表示(例如,14X14[8])。这种失真和固定大小的表示会降低分割精度,特别是对于较大的对象。其次,全连接层对任务进行了过度的参数化,而不使用本地权重共享的规则化。例如,最后一个全连接层有用于估计一个28X28掩码的高维784-way输出。最后,最后一步中对per-ROI网络计算在ROIs之间不共享。根据观察到的经验,在最后的步骤中,一个用以获得良好的精确度[36,9]的复杂子网络是必要的。因此,对于大量的ROIs(通常是成百上千的region proposal)来说,它是相当缓慢的。例如,在2015年[25]的COCO分割挑战赛中赢得了第一名的MNC方法[8]中,对于ResNet-101模型[18]中,有10个图层被保存在per-ROI的子网络中。该方法每幅图像需要1.4秒,而1.4秒中超过80%的时间花费在最后的per-ROI步骤上。这些缺点促使我们去问这样一个问题:我们是否可以利用FCNs的优点来实现端到端的实例感知语义划分?
最近,一种全卷积方法被提出用于instance mask proposal generation[5]。它将传统FCNs平移不变的得分图扩展到position-sensitive的得分图,这是一个可翻译的版本。图1(b)说明了这一点。该方法仅用于mask proposal生成,并提出了几个缺点。它无法识别语义类别,且需要一个下游的检测网络。对象分割和检测子任务被分离,解决方案不是端到端。它的操作方式是方形、固定大小的滑动窗口(224X224像素),并采用一种耗时的图像金字塔扫描来查找不同尺度的instances。
在此工作中,我们首次提出了端到端全卷积的方法,以实现实例感知的语义划分。它被称为FCIS,它在[5]中扩展了这个方法。基本的卷积表示和得分图被完全共享用于对象分割和检测子任务,通过一个没有额外参数的新的组合公式。这个网络结构高度集成、高效。per-ROI计算都是简单的、快速的,并且不涉及任何的转化或改变操作。图1(c)简要说明了该方法。它使用的是box proposals,而不是滑动窗口,得益于最近在对象检测方面取得的进步[34]。
大量的实验证明我们的方法在准确性和效率上都具有极大的优势。在COCO数据集挑战赛[25]中,它比前任冠军MNC[8]获得了更高的精确度,以此拿下了2016年COCO竞赛第一名。并比第二名在相对精度上的表现整整高出12%。在COCO竞赛中,我们使用ResNet-101模型[18](Nvidia K40),每副图像的处理只需0.24秒,要比MNC方法快6倍。相关代码在https://github.com/daijifeng001/TA-FCN.
图1阐述了我们的想法。(a)用于语义分割的传统全卷积网络(FCN)[29]。该网络忽略单个对象实例,对每一个类别使用单独的得分图。(b)对实例分割候选的instanceFCN[5],该方法用3x3的敏感位置得分图来对相对位置信息进行编码。并用一个下游的网络进行分割候选区域分类。(c)我们的全卷积实例感知语义分割方法(FCIS)。使用位置敏感的内\外得分图进行对象分割以及联合和拟合的检测。
2.我们的方法
2.1Position-sensitive 得分图参数化
在FCNs[29]中,训练分类器来预测每一个像素点归属于某个物体类别的概率。FCNs具有平移不变性它是平移不变的,不知道单个对象实例。例如,相同的像素可以在一个对象上显示,但是在另一个(相邻的)对象上是背景。每个类别的单个得分图不足以区分这两种情况。
为了介绍平移可变的性质,首先在[5]中提出了一个用于instance mask proposal的全卷积方案。它使用的是k^2 position-sensitive得分图,对应于KxK对物体的均分单元格。这在图1(b)(k=3)中得到了说明,每个得分图具有与原始图像相同的空间范围(在较低的分辨率下,例如,16X)。每个Score表示在相对位置中,像素点属于某个物体实例的概率。例如,第一个map是图1(b)中的“左上角位置”。
在训练和推断过程中,对于一个固定大小的方形滑动窗口(224x224像素),其像素级的前景概率map是通过组合(copy-paste, 复制粘贴)对应score maps的 ktimes;k 单元格得到的. 这样,当像素点在实例的不同相对位置时,就会对不同的实例有不同的scores.
如[5]所示,该方法对于对象mask proposal任务是最先进的。然而,它也受到这项任务的限制。它只使用一个固定大小的方形滑窗。该网络应用于多尺度图像,以查找不同大小的对象实例。这种方法无法识别对象种类。只有单独的“objectness”分类子网络用于将窗口分类为对象或背景。对于实例感知的语义分割任务,使用一个单独的下游网络将mask proposals进一步划分为对象类别[5]。
图2显示了根据不同的ROIs(对于“person”类别)的实例分割和分类的结果。得分图由不同的ROIs以及子任务共享。红点表示同一个像素在不同的ROIs上有不同的语义。
2.2联合 Mask 预测和分类
对于实例感知语义分割任务,不仅是[5],而且还有许多其他先进的方法,比如SDS[15]、Hypercolumn[16]、CFM[7]、MNC[8]和MultiPathNet [42],共享一个相似的结构:两个子网络被分别用于对象分割和检测子任务。显然,这种设置中的设计选择,例如,两个网络的结构、参数和执行顺序,都是任意的。它们可以很容易的做到,但是出于方便而不是出于底层上的考虑。我们推测,分离的子网络设计可能无法充分利用这两个任务之间的紧密关联。
我们强调了“position-sensitive score map”的理念可以同时完成对象分割和检测的子任务。这两个子任务和底层的卷积表示有一系列相同的得分图共享。我们的方法没有带来额外的参数,并且消除了非必要的设计选择。我们相信它可以更好地利用这两个子任务之间的强相关性。
我们的方法如图1(c)和图2所示。给定一个ROI,它的像素级的得分图是由ROI内的装配操作产生的。对于一个ROI中的每个像素,有两个任务:1)检测:它是否属于一个相对位置的对象边界框(检测 )或不(检测-);2)分割:是否在对象实例的边界(分割 )或不(分割-)。一个简单的解决办法就是分别训练两个分类器。这正是我们在表1中所做的基线FCIS(单独的得分图)。在本例中,这两个分类器是两个1x1的conv层,每个都只使用一个任务的监督。
我们的联合公式将这两个答案融合进了两个分数:内和外。有三种情况:1)高内分和低外分:检测 ,分割 ;2)低内分和高外分:检测 ,分割-;3)两个分数都很低:检测—分割-。这两个问题通过softmax和max操作共同回答了两个问题。对于检测,我们使用max来从案例3(检测-)中区分案例1与案例2(检测 )。通过对所有像素的平均池化的可能性的收集,获得整个ROI的检测分数(然后是所有类别的softmax操作符)。对于分割,我们使用softmax在每个像素内来区分案例1(分割 )与案例2(分割-)。ROI的前景mask(在概率上)是每个像素分割得分的联合(针对每个类别)。类似地,这两组得分来自于2个1x1的conv层。内部/外部分类器是联合训练的,因为它们接收到从分割和检测损失中获得的反向传播的梯度。
该方法有许多可取的属性。所有的per-ROI组件(如图1(c))都没有自由参数。得分地图是由单个FCN生成的,不涉及任何特性的warp、改变或fc层。所有的特征和评分图都尊重原始图像的纵横比。该系统的本地权重共享特性被保留,并作为一种规则化机制。所有的per-ROI计算都是简单(k2单元格、得分图拷贝、softmax、平均池)和快速的,使得per-ROI计算成本可以忽略不计。
2.3一个端到端的解决方案
图3显示了我们的端到端解决方案的体系结构。尽管任何卷积网络架构都可以使用[39,40],但在这个工作中,我们采用了ResNet模型[18]。最后一个用于1000-way分类器的全连接层被丢弃了。只有之前的卷积层被保留。由此产生的特征图有2048个频道。此外,还添加了一个1x1的卷积层,以将维度减少到1024
在最初的ResNet中,在网络顶部的有效特征步长(特征图分辨率的减少)是32。这对于实例感知的语义划分来说太粗糙了。为了减少特征步长和保持视野,应用了“hole algorithm”[3,29](Algorithma atrous[30])。在第五组卷积层中的第一个块的步长从2降到了1。因此,有效的特征步长降为16。为了保持视场域,通过将卷积层膨胀设置为2来将“hole algorithm”应用于所有第五组的卷积层。我们使用RPN[34]来生成ROIs。为了与MNC方法[8]进行公平的比较,它以同样的方式被添加到第四组卷积层的顶部。注意,RPN也是全卷积。
从第五组卷积层的特征图中,使用一个1x1的卷积层来生成2k^2(C 1)的得分图(C对象类别,一个背景类别,每个类别的两组k^2得分图,在实验中默认为k=7)。在得分图上,每个ROI都被投射到一个16x较小的区域。它的分割概率图和分类器得分都是在第2.2节中所描述的。
在现代对象检测系统中,边界框(bbox)回归[13,12]被用于改进初始输入ROIs。在第五组的特征图上添加了一个带有4k^2通道的1x1相似卷积层,以估计位置和大小的边界框移位。
下面我们将讨论更多关于推断和训练的细节。
对于一个输入图像的推断,具有最高分数的300ROIs是由RPN生成的。它们通过bbox回归分支生成另外300ROIs。对于每一个ROI,我们都得到它的分类分数和前景mask(概率)。图2显示了一个示例。非最大抑制(NMS)与交叉-超联合(IoU)阈值0.3用于过滤高度重叠的ROIs。剩下的ROIs被分类为分类得分最高的类别。他们的前景mask是通过mask投票[8]来获得的。对于正在考虑的ROI,我们发现所有的ROI(来自600),IoU的分数高于0.5。该类别的前景mask是按每个像素计算的,按分类分数进行加权。平均的mask是作为输出的。
如果它与尊重最近的ground-truth对象的边界框IoU的阈值大于0.5,那么训练ROI是积极的,否则是消极的。每个ROI都有三个相同权重的损失条件:一个超过C 1类别的softmax的检测损失,一个只超过了ground-truth类别的前景mask的softmax的分割损失,以及一个bbox的回归损失,如[12]。后两种损失条款只对积极的ROIs有效。
在培训过程中,模型从ImageNet分类[18]中的预训练模型进行初始化。在预训练的模型中没有的层是随机初始化的。训练图像的大小调整为600像素的短边。我们使用SGD优化。我们用8个
全文共15861字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14744],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。