英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
一种显著目标检测方法
Liu Tie Sun Jian Zheng Nan Ning Tang Xiao Ou Heung-Yeung Shum
西安交通大学 微软研究亚洲研究院
中国西安 中国北京
摘要:
通过检测输入图像的显著目标来学习视觉注意。本文提出了一种用于解决图像分割问题的显著目标检测方法,将显著目标从图像背景中分离出来。同时提出了一组新的特征,包括多尺度对比度(multi-scale contrast)、中心环绕直方图(center-surround histogram)和颜色空间分布(color spatial distribution)来描述局部、区域和全局的显著目标。本文使用了一个条件随机场来有效的结合这些特征,以用于显著目标检测。为此还建立了一个大型图像数据库,其中包含数万张由多个用户仔细进行标记的图像。据我们所知,这是第一个用于显著目标算法定量评估的大型图像数据库。利用此数据库,对文章的工作进行了验证,该数据库与本文是公开可用的。
1.介绍
“每个人都知道注意力是什么hellip;”
威廉·詹姆斯,1890
人类的大脑和视觉系统对图像的某些部分有着更高的关注度。长期以来,视觉注意(visual attention)一直在生理学、心理学、神经系统和计算机视觉领域中被研究。视觉注意的应用有很多,例如自动图像裁剪[23],图像在小型设备上的自适应显示[4],图像/视频压缩,广告设计[7]以及图像采集浏览(image collection browsing)。最近的研究 [18,22,26] 表明视觉注意也有助于对象识别、追踪和检验。
现有的视觉注意方法大多基于自底向上的计算框架[3,6,8,9,10,11,19,25],这是因为视觉注意通常无意识的由场景中的低水平刺激引起,比如灰度(intensity)、对比度和动作。这些方法由如下三个步骤组成。第一步是特征提取,包括灰度、颜色、方向、纹理和动作等从图片中多个尺度提取出来的底层视觉特征。第二步是显著性计算,它是通过中心环绕运算(center-surround operation)[10]、自信息(self-information)[3]、或者基于图像(graph-based)调用多个特征的随机漫步(random walk)[6]。经过归一化和线性/非线性组合后,计算生成一个标准图(master map)[24]或者显著图(salient map)[11]用于表示每个图像像素的显著性。最后,显著图上的几个关键位置由胜者全取准则(winner-take-all)、返回抑制(inhibition-of-return)或其他非线性操作决定。尽管这些方法在人造物体和自然物体的图像中寻找一些注视位置(fixation locations)方面表现得很好,他们还没有能够准确的识别出视觉注意应处于哪些地方。
(a) (b) (c)
图1 显著图 自顶向下为:输入的图片,通过Itti的算法(http://www.saliencytoolbox.net)计算出的显著图,我们的方法计算得出的显著图
例如,图1的中间行展示了使用Itti的算法[10]计算得出的三个显著图。注意到显著性集中在一系列较小的具有高对比度结构的区域中。例如(a)中的网格,(b)中的阴影和(c)中的前景边界(foreground boundary)。尽管(a)中的树叶需要很多的注意力,树叶的显著性却很低。因此这些通过低层特征计算得出的显著图并没有很好的指明用户浏览这些图片时的注意力在哪里。
在这篇论文中,我们将显著目标的高层概念(high level concept)嵌入到视觉注意的计算过程中。在图1中,树叶、汽车和女人在各自的画面中吸引了最多的视觉注意。我们称之为显著目标或者称为我们所熟悉的前景对象。正如图2中可以观察到的,人们通常会更加关心图像中的显著目标,比如人、脸、汽车、动物或者路标。因此,我们将显著目标检测定义为二值化标记问题,用于将显著目标从背景中分离。和人脸识别的相同之处是我们学习检测熟悉的对象;不同于人脸识别的地方是我们检测一个图片中熟悉却又未知的对象。
我们提出了一种监督学习方法来检测图片中的显著目标。首先,我们构建了一个大型图像数据库,其中包括20000多张仔细标记的图像。据我们所知,这是第一次有一个可用于定量评估的大型图像数据库。用户的标记信息被用于监督显著目标检测。可以视作训练阶段自顶向下的信息。其次,为了克服我们不知道特定对象(specific object)或对象范畴(object category)的挑战,我们提出了一组新的局部、区域和全局特征用于定义一个通用显著目标。这些特征通过条件随机场(CRF)学习得到最优组合。此外,这些分割特征还被组合到CRF中用于检测未知大小和形状的显著目标。图1中的最后一行展示了通过我们的方法计算得出的显著图。
2.图片数据库
人们可能对一张图片中的显著目标的划分有不同意见。为了解决“给定图像中什么是最可能的显著目标”的问题,我们采用了由多个用户在图像中标记显著目标“真值(ground truth)”的投票策略。在本论文中,我们关注的是图像中只有单个显著目标的情况。
显著目标表示
在形式上,我们通过二元掩码表示给定的图1的显著目标。对于每一个像素x,是一个二元标记,用来表示像素x是否属于显著目标。为了标记和评估,我们要求用户画一个矩形来指出显著目标。我们的检测算法也输出了计算得出的矩形。
图片源
我们已经收集了一个规模庞大的拥有多个数据源的130,099张高质量图像的图像数据库,其中的大部分图像来自图片论坛和图片搜索引擎。然后我们手动选择了六万多张图片,每张图片都包含一个显著目标或独特的前景对象。我们进一步选择了20,840张图片进行标记。在选择过程中,我们排除掉了显著目标过大的图像,以便于检测方法的表现的得到更为准确的评估。
图2 显著目标数据库图片示例
标签的一致性
对于每个需要被标记的图像,我们要求用户根据自己的理解,画出一个包含图像中最显著的目标的矩形。不同用户所标记出的矩形通常是各不相同的。为了减少标记的不一致性,我们从多个用户绘制的矩形中票选出一个“真值”标记。
在第一阶段中,我们要求三位用户分别标记所有的20,840张图片。每个用户平均花费10-20秒来在一张图片上标记矩形。整个过程花费了大约三个星期。然后,对于每个标记了的图片,我们使用三个用户标记的矩形,计算了一个显著目标的显著概率图(saliency probability map):
(1)
其中M是用户数量,是第m个用户所标记的二元掩码。图3展示了两个高度一致的示例和三个不一致的示例。最下方一行的前两个示例拥有不一致的标记是多个不相交的前景目标造成的。最下方一行的最后一个示例说明了一个目标拥有多层次的引起注意的结构。我们称这些图片为集A。在本文中,我们关注的是对每个图像单个显著目标的一致的标记。
图3 由三位用户标记的图片
上面一行为两个标记一致的示例,下面一行为三个标记不一致的示例
为了度量标记的一致性,我们计算并统计了每个图像的:
(2)
是显著概率大于给定阈值t的像素的百分比。例如,是至少有一半用户同意的百分比。意味着所有用户对图片给出的标记是一致的。图4(a)和4(b)是图片集A的和的直方图。我们可以看出,标记结果是完全一致的,至少有两人92%的标记结果是一致的(图4(b)),三名用户的标记结果有63%完全一致(图4(a))。
在第二阶段,我们在图片集A中随机选取了5000张标记高度一致的图像(即)。然后我们要求9个不同用户来对显著目标所在的矩形进行标记。图4(c)和4(d)展示了这些图像和时的直方图。和图片集A相比,这个图片集的显著目标的不确定性更低。我们把这些图片成为图片集B。
在经过以上两个阶段的标记之后,我们的图像数据库中的显著目标是由多个用户的“多数同意”决定的,并以显著概率图表示出来。
图4 标记一致性
(a)(b)为图片集A中(三位用户一致)和,(c)(d)为图片集B中(9人中至少8人一致)和
评估
利用显著概率图G,我们定义了基于区域和边界的量度制,应用到每一个能检测到的显著目标掩码A上。我们使用精确度(precision)、召回率(recall)和F-measure来构建基于区域的度量机制。精确度/召回率是正确检测到的显著区域和检测到的“真值”显著区域的比值:
F-measure是精确度和召回率的加权调和平均(weighted harmonic mean),其拥有一个非负的alpha;值:
我们根据[17]设置alpha;=0.5,F-measure是一种综合绩效评价(overall performance measurement)
3.用于显著目标检测的CRF
我们通过把显著目标从背景中分离出来的方式,把显著目标检测问题转化为二元标记问题。在条件随机场(CRF)框架[13]中,利用观测图像I给定的标记可能性直接建模为条件分布,其中Z为配分函数(partition function)。为了检测显著目标,我们定义energy 为K个显著特征和一个成对的特征(pairwise feature)的线性组合:
其中是第k个特征的权重,x与为两个相邻像素。相对于马尔可夫随机场(MRF),CRF的优势之一是其特征函数和可以任意使用从图像中提取出的低层或高层的特征。CRF还提供了一个简洁的框架,将多种特征和高效学习结合起来。
显著目标特征
表明了一个像素x是否属于显著目标。在下一步中,我们提出了一组局部、区域和全局的显著目标特征来检测显著目标。每一种显著特征为每一个像素提供了归一化的显著图。显著目标特征由下式决定:
Pairwise算法特征(pairwise feature)
对两个相邻像素间的空间关系进行了建模,根据交互式图像分割(interactive image segmentation)[2]中对比度敏感(contrast-sensitive)的势函数(potential function),我们将定义为:
其中是L2正则化(L2 norm)下的颜色差异。beta;是衡量颜色对比度的一个稳健参数(robust parameter),可以被设置为[1]。其中“·”为期望算子(expectation operator)。当相邻像素被不同的标签标记时,这个特征函数就成为一个惩罚因子(penalty term)。两个像素的颜色越接近,被指定为不同标签的可能就越小。通过pairwise算法特征进行分割时,显著目标同质的内部地区也能被标记为显著像素。
3.1 条件随机场(CRF)学习
为了得到各个特征最优的线性组合,CRF学习的目标是在极大似然(ML)准则下估计线性权值。给定N的训练图像对,最优参数使对数似然函数的和达到最大值:
对数似然函数关于参数的导数是两个期望之差:
梯度下降法为:
其中为边缘分布,源自于被标记的真值:
边缘分布的精确计算是个棘手的问题。尽管如此,通过置信传播算法(belief propagation)计算得出的伪边界(pseudo-marginal)可以作为一种很好的近似[21,14]。在每一步的梯度下降计算中,tree-reweighted belief propagation[12]都可以在当前参数下运行,用于计算近似的边缘分布。
4.显著目标特征
在本节中,我们将介绍用于定义显著目标的局部、区域和全局特征。由于层选择方法(scale selection)是特征提取的基本要素之一,我们重新调整了所有图片的大小使图像的最大高度和宽度为400像素。下文中,所有的参数均根据图像的基本大小设置。
4.1多尺度对比度(multi-scale contrast)
因为对比度算子模拟了人类的视觉感受野,对比度成为了注意力检测中最常用的局部特征[10,15,16]。在显著目标大小未知的情况下,对比度通常由多个尺度计算得出。本文中,我们将多尺度对比度特征简单定义为高斯图像金字塔中多尺度对比度的线性组合:
其中是第l级金字塔的图像,金字塔总级数L为6。N(x)是一个9times;9的窗口。特征图被归一化到一个合适的[0,1]范围。如图5的示例所示,多尺度对比度通过对显著目标内部的均匀区域给出低分来突出高对比度边界。
图5 多尺度对比度 从左到右为:输入的图像,多尺度对比度图,多尺度对比度图线性组合得到的特征图
4.2 中心环绕直方图
如图2所示,显著目标通常拥有比局部更高的对比度,由此可从周围环境中区分出来。因此,我们提出了一个区域性的显著特征。
假设显著目标处于一个矩形R中。我们构建一个和矩形R边界一致的轮廓,如图6(a)所示。为了测量显著目标在关于他边界的矩形有多么突出,我们可以通过使用各种各样的视觉线索,如灰度、颜色和纹理/纹理基元(texton)测量R和的距离。本文中,我们采用了RGB颜色直方图的距离:。我们使用直方图是因为他们是对于外观的鲁棒全局描述。他们对大小、形状和视角的微小变化不敏感。另一个原因是任意位置和大小的矩形的直方图都可以通过最近发表的[20]的直方图积分快速计算得出。图6(a)表明,通过直方图距离计算的结果中显著目标(图中女孩)是最明显的。我们还尝试了灰度直方图(intensity)和方向梯度直方图(oriente
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239530],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。