英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
具有多尺度多路径和跨模态交互作用的用于RGB-D显著性物体检测的多模态融合网络
陈浩,李友福*,苏丹
香港城市大学机械工程系,九龙塘达之路83号,中国香港特别行政区
摘要
成对的RGB和深度图像正成为计算机视觉任务中常用的多模态数据。基于卷积神经网络(CNN)的传统方法通常只将它们在后期的深度表示与一条路径组合,来融合RGB和深度,这种表示可能是模糊的,并且不足以融合大量的跨模态数据。为了解决这个问题,我们提出了一种具有跨模态交互(MMCI)的新型多尺度多路径融合网络,其中通过将融合路径多样化为全局推理和局部捕获路径,来推进具有单融合路径的传统双流融合架构,同时在多个层中引入跨模态交互。与传统的双流体系结构相比,MMCI网络能够提供更多自适应和灵活的融合流,从而简化优化过程并实现充分而有效的融合。同时,MMCI网络具有多尺度感知能力(即,同时进行全局和局部内容的推理)。我们将RGB-D显著性检测作为示例任务。在三个基准数据集上的大量实验表明,与其他最先进的方法相比,本文提出的MMCI网络有所改进。
1 引言
近年来,在各种计算机视觉[1]和机器人视觉系统[2]中,RGB-D数据的普及程度越来越高。与提供详细外观和纹理的RGB数据相比,深度数据另外呈现出清晰的对象形状和空间布局。与RGB传感器相比,深度传感器对照明变化和颜色变化更加稳健。因此,RGB和深度数据在数据分布和适用场景方面是互补的。于是,如何以充足的方式融合RGB和深度信息一直是处理RGB-D数据的基本问题。
之前关于处理RGB-D数据的工作通常可以分为两类:(1)使用特定领域的知识展示RGB-D数据的手工制作的特征[3-7];(2)分别处理RGB和深度数据,然后进行融合决策。对于第一个解决方案,手动操作的过程高度依赖于特定领域的知识,使得这些特征很难很容易地推广到其他任务。此外,手动操作的特征缺乏高级别推理,这对场景理解很重要。一些无监督的学习方法,包括稀疏编码[8]和自动编码器[9]被进一步引入,以解决手动操作的RGB-D特征的问题。尽管如此,受浅层体系结构限制的这些方法仍然远远没有学习高级表示和令人满意的通用能力。
最近,相关的工作采用卷积神经网络(CNNs)[10]来处理RGB-D数据,以便在挖掘高级表示和建模复杂相关性时具有强大的CNN能力。利用这一优势,基于不同架构的各种CNN[11-17]被引入。即便如此,在现有工作中仍然没有研究如何设计融合结构的问题。相关工作主要涉及三个方面:1)RGB和深度数据被整合为CNN的联合输入(在图1(a)中标记为“输入融合”);2)将RGB和深度数据分别输送到每个流中,然后将它们的低级或高级表示组合为联合表示以进行进一步决策(在图1(b)(c)中标记为“早期融合”和“晚期融合”);3)独立操作每个流并融合他们的决定。虽然最近的一些工作考虑了RGB和深度数据之间的关系(例如,独立性和一致性)并实现了较为理想的性能[11,15],但这些网络的一个常见局限是RGB和深度数据的融合路径通常是单一的,我们认为在整合RGB和深度的所有信息方面是不足的。一个理想的RGB-D显著性检测系统是将结合多尺度跨模态补充用于联合全局背景推理和局部空间捕获。
|
图1 传统的双流CNN架构,包括(a)输入融合(b)早期融合(c)后期融合 |
完善这些目标需要多个融合路径,以避免在子任务之间进行冲突优化。否则,不太可能充分实现集体优化。因此,我们认为,一个精心设计的多模态融合架构应配备多个融合路径,以减少融合歧义,提高融合的可靠性。
我们的论点得到了最新进展[18-21]的支持,设计了基本的CNN架构,这表明设计CNN的原理已经从只增加普通网络中的深度[18,19]转化到丰富其连接路径[20-22]。为了简化基于梯度的优化,文献[20]中的作者引入了门控单元,以允许信息流无阻碍地跨越多个层。He等人[21]提出了快捷的连接,以重新构建学习所需的未引用层作为近似剩余函数。在ResNet[21]中提出的标识函数的快捷方式可以认为是通过促进流动路径来促进信息传播的一种途径。最近,Xie等人[23]总结[20-22]中的分裂-变换-合并策略作为一个新的维度,称为“基数”,涉及到深度和宽度。基数作为变换集的大小与多个流路径相结合。在这项工作中,已经通过实验证明,相对于更深入或更广泛而言,增加基数是一种更充分而显著的提高效率方法。
受[20-23]中的原理和成功的启发,我们认为多模态融合问题将在融合网络中引入更多路径的优化效率和融合适配性方面获益良多,而多模态融合网络很少考虑到这一点。鉴于此局限性,我们的进一步问题是如何设计一个多路径多模态融合网络。我们发现,人类以一种综合的方式感知和观看场景[24,25],即以全局视角定位目标物体并用局部视角捕捉细节。类似地,在各种机器人视觉和计算机视觉任务中,全局理解和局部捕获通常是必不可少的。例如,一个理想的用于捕获的目标物体(例如,杯子)并同时突出用于捕获的特定部分(例如,手柄)。此外,突出物体检测任务[7,26-28]的目标是突出显示最能吸引人类的物体,还需要全局推理来判断哪个对象是最合适的局部视角,来获得最精确的物体边界。
基于引入多路径和整合全局和局部视角的重要性,我们建立了一个多路径多尺度多模态(MMCI网)融合网络(如图所示)
在图2(b)中,融合路径是多样化的全局推理和局部捕获。我们提出的MMCI网络可以简化联合优化过程,同时赋予多尺度感知的多模态融合网络。首先,嵌入全局推理分支和局部捕获分支的每种模态的网络流分别用图2(a)所示的相同架构进行训练。然后我们将它们的局部和全局分支连接起来,并将组合的全局和局部路径的预测结果相加作为最终预测。从工作中得出的另一个结论是,RGB和深度数据之间的互补信息是从低级表示并发到高级内容。为此,我们在较浅的层中添加从深度流到RGB流的跨模态交互,以进一步鼓励跨模态组合。如果没有这些跨模态的交互作用,就必须单独学习RGB和深度流,且在特征提取过程中不能充分利用它们的补充信息。因此,浅层的跨模态互补性不太可能被进一步探索。除了主要的后期融合阶段,跨模态交互作用使得在自下而上的过程中学习跨模态得到补充,允许在不同的特征水平上探索更具判别力的多模态特征。此外,跨模态交互作用从RGB流到深度流引入了额外的反向传播梯度[21],进一步促使深度流学习互补特征。在这项工作中,我们使用显著对象检测任务来验证和验证我们提出的多模态融合策略。
总之,这项工作的贡献有三方面:
(1)我们提出了一种多路径多模态融合网络。与先前依赖单一直线路径的融合网络相比,多样化的融合路径减少了融合歧义,简化了优化过程,提供了更好的融合适应性。
(2)MMCI网络具有多尺度的上下文推理能力,在端到端架构中同时包含全局推理和局部捕获。跨模态的交互作用不仅赋予了额外的梯度以鼓励深度流的学习,还允许探索跨越低层次和高级别的跨模态补充。
(3)对三个公共数据集的广泛评估表明,我们的方法比现有技术有了实质性的改进。
|
图2 提出的R_SalNet和D_SalNet(a)和MMCI net(b)的框架。右下方显示的图例表示:(1)传统卷积层无扩张;(2)扩张卷积层,其输出特征图的分辨率保持为56times;56逐渐加倍膨胀因子;(3)池层;(4)卷积层与1times;1内核;(5)全局上下文推理的完全连通层;(6)表示由元素求和执行的不同分支中的跨模态交互;请注意,为简化省略ReLU层,所有的总和都是在ReLU层之后实现的。 |
2 相关工作
尽管已经在RGB显著性检测方面设计了各种模型,但RGB-D显著性检测工作受到严重限制。之前关于RGB-D显著性检测的研究大多可以分为三种模态:输入融合、特征融合和结果融合。基于输入融合的方法直接将深度图像作为未分化的通道[29],或在RGB和深度通道上设置恒定重量来连接RGB-D对[30,31]。接着,在联合输入之后进行进一步的特征提取和显著性推断过程。特征融合方法分别从RGB和深度模态中提取特征,然后将它们的特征结合起来进行显著性检测。在[32]中,来自RGB和深度模态的手动操作的特征连接成网络输入,以生成集体特征。作为与我们同时提出的最新的基于CNN的RGB-D显著性检测模型,该方法比基于手动操作功能的传统模型得到了更具吸引力的改进。然而,[32]中设计的低级特征具有有限的判别性,而工艺过程导致不可避免的信息丢失,限制了CNN在进一步特征提取和显著性推断中的能力。此外,指导低级特征提取的人类先验知识可能与CNN感知显著性的方式相冲突,从而限制了CNN的显著性推理。此外,将手动操作的特征结合起来作为CNN的输入,使其无法利用互补的高级别信息发送,也无法利用在大规模数据集(例如Alex-Net[10]和VGG-Net[18])上训练的现有模型来初始化网络。由于随机初始化和小规模RGB-D训练数据集,多模态融合网络不太可能得到良好的训练。因此,CNN在学习具有辨别力的高级特征方面的优势并未得到很好的体现。相比之下,Han等人[33]仅关注梳理高级跨模态补充。结果融合分别从每种模态中模拟显著性检测,然后通过直接求和[7,30],乘法[34]或其他经验规则[35]来组合它们的预测。然而,这些结果融合方法无法在特征提取过程中利用配对模态中的基础互补信息。因此,融合可能是不可靠的。另一个相关任务是压缩域或立体视觉内容的显著性检测。Fang等人[6]提出从JPEG比特流中的离散余弦变换系数中提取显著特征。在[27]中,压缩域中的显著性检测被推广到视频内容。分别测量运动显著性和静态显著性,然后通过加权结果融合方式组合。立体图像中的显著性检测[7,30,36]基本上共享RGB-D图像对的类似多模态融合模态。最近,文献[25]采用经典方法研究了立体视频中的显著性检测问题,并引入了融合RGB、深度和时间模态的计算模型。
至于用CNN进行的其他RGBD诱导任务,Eitel等人[13]采用传统的双流结构,其中RGB和深度流完全独立,在后期由单个融合层组合。Wang等人[11]和Zhu等人[15]分别从每个模态中提取深层特征,然后通过考虑它们在预测层中的依赖性和一致性来学习不同模态的决策重量。实际上,文献[11]和[15]都遵循结果融合方案,它不能利用特征提取阶段对应的互补表示。此外,文献[11]和[15]中制定的模态关系是针对图像分类任务而定制的,这些任务不能被普遍用于像素任务。此外,这些方法通过单个融合层将多模态CNN流组合而没有任何附加或连接路径。然而,我们认为,由于CNN特征的多样性,仅仅通过单个点和路径融合来自多个模态的信息流可能是模糊而不充分的。因此,需要具有多样化融合点和更多自适应融合路径,以及额外的跨模态交互作用的多路径融合框架,这不仅降低了融合模糊性简化了基于梯度的优化过程,而且为多尺度上下文推理融入显著性推理过程提供了平台。
3 提出的方法
考虑到RGB和深度数据在分布和结构方面的差距,以及现有RGB-D训练样本的不足,我们采用阶段性训练方式。这意味着每个模态的网络,包括全局理解分支和局部捕获分支,被分别进行训练,然后组合成融合网络共同训练。如图2所示,我们首先训练RGB诱导显著性检测网络(R_SalNet),然后用R_SalNet参数作为初始化训练深度诱导显著性检测网络(D_SalNet)。R_SalNet和D_SalNet共享相同的架构,如图2(a)所示。最后,R_SalNet和D_SalNet由多路径和跨模态交互组合作为多路径多尺度多模态融合网络(MMCI网络),然后基于R_SalNet的参数训练MMCI网络和D_SalNet配对的RGB-D图像。请注意,MMCI网络的训练数据集与R_SalNet和D_SalNet的训练数据集相同。通过这种阶段性的训练方法,每个阶段学到的参数都是有限的。通过这种方式,可以充分地重复使用小规模的训练数据,并且可以减轻CNN的数据饥饿性质以避免过度拟合的风险。以下各节将讨论更多的网络详细信息。
3.1 RGB诱导显著性检测网络(R_SalNet)
图2(a)所示的R_SalNet网络架构是根据广泛使用的VGG-Net[18]设计的。我们保留其13个卷积(转换)层并移除所有3个完全连接(FC)层。在训练阶段,固定的224times;224RGB图像被送入两个conv.-conv.-pooling和一个conv.-conv.-conv顺序块。然后,网络在conv.3_3层分为全局理解分支和局部捕获分支。如[37]中所示,中层对部分对象做出响应,而高层与任务理解更相关(即,在全局或局部视图中)。因此,对于任务理解不可知的较浅特征可以在不同分支之间共享。由此,在中间层分叉网络是一种合理的选择,可以通过增加较少的参数来使融合路径多样化。
对于全局分支,pooling3层之后的特征映射被馈送到两个conv.-conv.-conv.-pooling块,输出分辨率降低为28times;28-14times;14-7times;7,有效感受域逐渐增加。7times;7特征图之后是具有3136个节点的FC层,其中每个节点推断每个像素的显著性,整个图像作为感受域。3136个显著概率被扭曲为56times;56显著图。FC层使全局上下文推理能够正确定位显著对象并避免高亮度的局部显著干扰。但是,全局理解分支中的连续池层,会导致分辨率的降低,并且无法捕获显著对象的精细边界。因此,需要另一个用于捕获局部细节的分支。对于局部捕获分支,我们采用扩张卷积(di_conv)[38]来聚合多尺度上下文并保持输出分辨率。与传统的连续卷积滤波器不同,扩张卷积滤波器允许每个单元格之间存在
全文共20350字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[3031]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。