基于多尺度深度特征的视觉显著性外文翻译资料-外文翻译网

英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

基于多尺度深度特征的视觉显著性

李冠斌余一洲

香港大学计算机科学系教授

摘要

视觉显著性是认知科学和计算科学(包括计算机视觉)的一个基本问题。在本文中，我们发现一个高质量的视觉显著性模型可以从提取的多尺度特征中学习,使用深度卷积神经网络(deep tional neural network, CNNs)，其中在视觉识别任务中取得了很多成功。为了学习这种显著性模型，我们引入了一种神经网络结构，该结构在神经网络的顶层建立了完整的连接层，负责三种不同尺度的特征提取。在此基础上，提出了一种改进方法，来获取显著性的空间一致性的结果。最后，为不同级别的图像分割而计算的多重显着性映射可以进一步提高图像分割的性能，从而产生比从单个图像分割生成的显着性映射更好的效果。为了促进视觉显着性模型的进一步研究和评价，我们还构建了一个新的大型数据库，包含4447幅具有挑战性的图像及其像素级显着性注释。实验结果表明，所提出的方法能够在所有公共基准上达到最先进的性能，分别将F-测度提高了5.0%和13.2%。MSRA-B数据集和我们的新数据集(HKV-IS)，在这两个数据集上平均绝对误差降低5.7%和35.1%。

1.介绍

视觉显著性试图通过人类视觉和认知系统[6]来确定朝向图像中的各个区域的注意力的量。因此，它是心理学、神经科学和计算机视觉领域的一个基本问题。计算机视觉研究人员专注于开发用于模拟人类视觉注意过程或预测视觉显著性结果的计算模型。视觉显着性已被纳入各种计算机视觉和图像处理任务，以提高它们的性能。这些任务包括图像裁剪[31]、重定向[4]和摘要[34]。近年来，视觉显著性也越来越多地应用于视觉识别任务[32]中，如图像分类[36]和人的再识别[39]。

参与视觉注意过程的人类视觉和认知系统由多层相互关联的神经元组成。例如，人类视觉系统有多层简单而复杂的细胞，其激活程度取决于输入信号的大小。由于深度人工神经网络最初受到生物神经网络的启发，因此利用深度人工神经网络建立视觉显著性的计算模型是一种自然的选择。具体来说，最近流行的卷积神经网络(Cnn)特别适合这项任务，因为cnn中的卷积层类似于人类中简单而复杂的细胞。视觉系统[14]虽然cnn中的完全连接层类似于人类认知系统中的更高层次的推理和决策。

本文利用卷积神经网络计算的多尺度深度特征，建立了一种新的视觉显着性计算模型。深神经网络，如CNNs，最近在视觉识别任务[24，12，15，17]方面取得了许多成功。这种深层次网络能够自动从原始像素中提取特征层次结构。此外，使用这种网络提取的特征具有很高的通用性，而且往往比传统手工制作的特征更有效。受此启发，我们使用最初在imaGenet数据集[]0]上训练的CNN进行特征提取。由于ImageNet包含大量对象类别的图像，我们的特征包含丰富的语义信息，这对于视觉显著性是有用的，因为人类对不同语义类别的对象的关注程度不同。例如，观看一幅图像的人可能会更多地关注像汽车这样的物体，而不是天空或草地。在本文的其余部分，我们称之为CNN特写。

根据定义，显著性是由视觉对比产生的，因为它直观地描述了图像的某些部分，这些部分相对于邻近区域或图像的其余部分显得很突出。因此，为了计算一个图像区域的显著性，我们的模型应该能够评估被考虑区域与其周围区域以及图像其余部分之间的对比度。因此，我们从三个嵌套的、越来越大的矩形窗口中提取每个图像区域的多尺度CNN特征，这些矩形窗口分别包围了所考虑的区域、邻近区域和整个图像。

在多尺度CNN特性的基础上，我们的方法进一步训练了完全连通的神经网络层。级联的多尺度CNN特征被输入到这些层中，使用一组标记的显着性地图进行训练。因此,这些完全连接层的角色回归量能够推断的得分显著的多尺度CNN的每个图像区域特征提取嵌套窗户周围的图像区域。众所周知，具有至少一个完全连接层的深度神经网络可以通过训练来达到非常高的回归精度。我们在现有数据集的基础上对基于cnn的视觉显著性模型进行了广泛的评估，同时注意到缺乏用于训练和测试显著性模型的大型且具有挑战性的数据集。目前，只有大数据集可以用来训练深度神经网络以MSRA-B数据集[26]为基础，建立了模型。这些年来，这个数据集变得不那么具有挑战性，因为那里的图像通常包含一个位于图像边界之外的突出对象。为了促进先进显著性模型的研究和评价，我们创建了一个大数据集，其中图像可能包含多个突出的对象，这些对象在图像中具有更一般的空间分布。我们提出的显著性模型在这个新数据集和所有现有数据集上显著优于所有现有的显著性模型。

总之，本文件有以下贡献：

bull; 提出了一种新的视觉显着性模型，将嵌套窗口中提取的多尺度CNN特征与具有多个完全连通层的深度神经网络相结合。深层神经网络对于显着性估计，使用一组标记显着性映射的区域进行训练。

bull; 通过进一步将基于cnn的显着性模型与空间一致性模型和多层图像分割相结合，建立了一个完整的显着性框架。

bull; 为显著性模型的研究和评价，建立了一个具有挑战性的新数据集——HKU-IS。该数据集是公开可用的。我们提出的显著性模型已经在这个新的数据集和所有现有的数据集上得到了成功的验证。

1.1相关工作

视觉显著性计算可分为上下两种方法或两者的混合。自底向上模型主要基于中心环绕模式，通过颜色、强度、纹理和方向等低层视觉属性的线性或非线性组合来计算主显著性图[19,18,1,8,26]。自顶向下的方法通常要求在计算过程[20，7，16，33，25]中纳入高级知识，如目标性和人脸检测器。

最近，已经做出了很多努力来设计区别特征和显著的先验知识。大多数方法基本上遵循区域对比框架，目的是设计能够更好地描述图像区域相对于其周围区域的显着性的特征。在[26] ，将三个新的特征与一个条件随机场结合起来。在文[33]中提出了一种基于低秩矩阵恢复的模型，用于将低级视觉特征与高阶先验信息结合起来。

显著的先验，例如中心先验[26，35，23]和边界先验[22，40]被广泛用于试探性地组合低级线索并改进显著估计。这些显着性先验或者直接与其他显着性线索作为权重[8，9，20]结合，或者在基于学习的算法[22，23，25]中用作特征。虽然这些经验先验可以改善许多图像的显着性结果，但当突出物体偏离中心或与图像边界明显重叠时，它们可能会失败。需要注意的是，在我们的框架中并没有忽略目标位置线索和基于边界的背景建模，而是通过多尺度CNN特征提取和神经网络训练，隐式地融入到模型中。

卷积神经网络最近在视觉识别任务方面取得了许多成功，包括图像分类[24]、目标检测[15]和场景分析[12]。Donahue等人[LL]指出，从Krizhevsky的CNN中提取的关于ImageNet数据集[10]的特征可以被重新定位为一般任务。Razavianet A1.[30]扩展了他们的结果，并得出结论：使用CNNs进行深度学习可以成为任何视觉识别任务的有力候选。尽管如此，cnn的报道还没有被解释清楚。视觉显着性研究中的ED主要是因为视觉显着性不能用[1，30]中所考虑的同样的框架来解决。应该学习的是与周围区域的对比，而不是图像区域内的内容，以便进行显着性预测。本文提出了一种简单但非常有效的神经网络。网络体系结构，使深度CNN特性适用于显着性建模和显着性目标检测。

具有深度特征的显著性推理

如图1所示，我们的基于深度特征的视觉显著性模型由三个深度卷积神经网络之上的一个输出层和两个完全连接的隐藏层构成。我们的显著性模型要求将输入图像分解成一组互不重叠的区域，每个区域内部的显著性值几乎一致。三个深度神经网络负责多尺度特征提取。对于每个图像区域，它们从三个嵌套的、越来越大的矩形窗口中自动提取特征，这三个窗口分别是所考虑区域的边界框、相邻区域的边界框和整个图像。从三个CNN中提取的特征被输入两个完全连接的层，每个层有300个神经元。第二全连接层的输出被送入输出层，输出层执行双向softmax，产生一个基于二进制显著性标签的分布。在为输入图像生成显着性映射时，我们在图像的每个区域反复运行我们训练的显着性模型，为该区域生成一个单一的显着性评分。此显着性分数将进一步转移到该区域内的所有像素。

图1:基于visual的深度特性的架构显著性模型。

2.1多尺度特征提取

我们使用Caffe[21](一个用于CNN训练和测试的开源框架)，在ImageNet数据集[10]上原始训练的深度卷积神经网络，为每个图像区域提取多尺度特征。这个CNN的架构有8层，包括5个卷积层和3个全连接层。特征提取自第二个完全连接层的输出，该层有4096个神经元。虽然cnn最初是在一个用于视觉识别的数据集上进行训练的，但是自动提取cnn的特征却是非常通用的，而且可以比传统的手动识别更有效。其他视觉计算任务的后置功能。

由于图像区域的形状可能是不规则的，而CNN的特征必须从矩形区域中提取，为了使CNN的特征只与区域内的像素相关，就像在[15]中一样，我们将提取CNN特征的矩形区域定义为边界框，并将区域外但仍在其边框内的像素填充到所有ImageNet训练图像中相同位置的平均像素值。这些像素值在平均减去后变为零，对后续结果没有任何影响。我们将边框中的区域扭曲为一个带有227x227像素的正方形，以使其与为ImageNet训练的深度CNN兼容。然后将扭曲的rgb图像区域送入深度cnn，通过正向传播一个平均减去的输入图像区域，通过所有卷积得到一个4096维的特征向量。层和完全连接的层。我们把这个矢量特征命名为A。

特征A本身不包括所考虑的图像区域周围的任何信息，因此无法判断该区域相对于其邻域和图像的其余部分。为了包括被考虑区域周围区域的特征，以了解其邻域的对比度大小，我们从矩形邻域中提取第二个特征向量，它是所考虑的区域及其邻近区域的边框。这个边界框中的所

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[436248]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于多尺度深度特征的视觉显著性外文翻译资料

您可能感兴趣的文章

登录

您可能感兴趣的文章