显著性检测:谱残差法外文翻译资料

 2022-03-27 19:38:56

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


附录A 译文

显著性检测:谱残差法

张晓迪,张立庆,

上海交通大学计算机科学系,上海市东川路800号

摘要

人类视觉系统检测视觉显著性的能力是非常快速和可靠的。然而,这种基本智能行为的假设建模仍然是一个挑战。本文提出了一种简单的方法用于视觉显著性检测。

我们的模型独立于特征,类别或其他形式的对象的先验知识。通过analyzer-输入图像的对数谱,我们提取光谱域中图像的残差,并提出一个构造相应的显著图空间域的快速方法。

我们不仅用自然图像测试这个模型,还用人工图像如心理模式。结果表明我们的方法能快速地检测出鲁棒的显著性。

1.介绍

对象识别的第一步是对象检测。对象检测的目的是在背景识别之前从中提取对象。但在背景识别前进行特征分析的话,如何能够实现机器视觉系统从未知背景中提取显著区域?

传统模式,通过关联特定的功能目标,实际上把这个问题转化为检测特定类别的对象[3]。因为这些模型是基于培训的,所以在广义任务中可扩展性成为瓶颈。面对不可预测和无数视觉模式类别,通用目的显著性检测系统是必须的。换句话说,显著性检测器应该用最少的参考来实现对象的统计。

如何在人类中实现显著性检测过程视觉系统?据人们认为这个涉及到两个阶段的视觉处理:一,并行,快速,但简单注意的过程;然后,串行,慢,但复杂注意的过程。预处理的性质已在文献中讨论[27,24]。在这个阶段,某些低级特征,例如取向,边缘或强度可以自动“弹出”。从观点来看对象检测,在注意阶段弹出的是对象的候选。为了解决候选人已经被检测但尚未被识别为对象,Rensink引入了原型对象在他的一致性中的概念理论[15,13,14]。

要找到给定图像中的“原始对象”,模型是在机器视觉领域发明的。根据Treisman的整合理论[24],Itti和Koch提出模拟人类视觉搜索过程的显著性模型[8,6,7]。最近,瓦尔特扩展了显著性模型,并将它成功地应用于对象识别任务[26]。然而,作为预处理系统,这些模型在计算上的要求很高。

大多数检测模型聚焦于总结目标对象的属性。但是,不太可能存在一般属性由不同类别的对象共享。在本文中,我们在一个另类方案中提出这个问题方式:探索背景的属性。

在第2节中,引入了频谱残差。从自然图像统计原理开始,我们提出了一个前端方法来模拟注意力的行为视觉搜索。与传统图像统计模型不同,我们分析每个图像的对数谱和获得频谱残差。然后我们将谱残差转换到空间域以获得表明原对象的位置的显著图。在第3节,我们还展示了基于多个对象检测的频谱残差法。

评估我们的方法的性能,在4.1部分,我们与[8]和人类标记结果比较我们的方法。结果表明我们的方法是一个形成早期视觉处理的快速和可靠的计算模型。

  1. 谱残差模型

高效编码是一个我们的视觉处理的许多机制可以解释的通用框架。Barlow [1]首先提出了有效编码假说去除感觉输入中的冗余。在视觉系统中的一个基本原则是抑制响应频繁发生的功能,同时使敏感的功能偏离规范[9]。因此,只有预期之外的信号能够传送到后期处理阶段。

从信息理论的角度,有效编码将图像信息H(I图像)分解成两部分:H(图像)=H(创新) H(先验知识),H(创新)表示新颖的部分,H(先验知识)是冗余信息应该由编码系统抑制。在图像统计方面,这样的冗余对应于统计我们环境中的不变性质。这些属性已在关于自然图像统计[4,25,17,18]文献中进行了全面讨论。如今它被广泛接受的是,自然图像不是随机的,他们服从高度可预测的分布。

在下面的章节中,我们将演示一种通过移除来逼近图像的“创新”部分统计冗余组件的方法。这部分,我们相信在注意阶段原始对象的弹出是固有的。

2.1.对数谱表示

对于自然图像统计的不变因素,规模不变性是最著名和最广泛的研究属性[20,17]。这个属性也被称为1/ f 定律。它说明了自然图像的集合光谱的平均傅立叶的幅度A(f)服从分布:

E {A(f)}alpha; 1 / f. (1)在对数与对数标度上,集合自然图像的幅度谱,在取向平均后,大致分布在直线上。

虽然对数与对数谱在理论上是成熟的并已被广泛应用,但是在单个图像的分析中仍不受欢迎,因为:(1)尺度不变性属性不可能在单个图像中找到;(2)采样点不够均匀,低频部分在对数 - 对数平面上稀疏,而高频部分集中在一起,会受到噪声的影响[25]。

取代对数-对数表示,在本文中,我们采用对数谱表示L(f)表示图像。对数谱可以通过L(f)= log(A)(f)来获得。的对数-对数和对数谱表示之间的比较如图1所示。

图1:对数谱和对数-对数谱的例子。:第一个图像是2277个自然图像的平均值。

图2:对数谱的平均取向曲线的实例。

这些曲线具有相似的形状。对数谱从下面采样的图像中计算。每个对数谱的大小为64times;64。

图3.在超过1,10,100的图像的平均曲线

对数谱表示已用于一系列涉及统计场景分析的文献中[22,23,21,11]。在下一节中,我们将利用显著性检测任务中对数谱的功率。 对数谱的例子如图2所示。 我们发现不同图像的对数谱具有相似的趋势,虽然每个对数普包含统计奇点。 如图3所示在超过1,10和100图像上的平均光谱的曲线图。该结果表明平均值的局部线性对数谱。

2.2.从频谱残差到显著图像

相似性意味著冗余。对于目的是将视觉信息冗余最小化的系统,它必须注意输入刺激的统计相似性。因此,在不同的对数光谱中有相当大的形状相似之处可以观察到,值得我们注意的是从平滑曲线跳出的信息。我们相信光谱中的统计奇异点可能负责图像中的原始对象弹出的异常区域。

给定输入图像,计算对数谱L(f)从具有等于64像素的高度(或宽度)的下采样图像。输入大小的选择与视觉规模有关。视觉尺度和视觉之间的关系显著性在第3.1节中讨论。

如果先前获得在L(f)中包含的信息,需要处理的信息是:

H(R(f))=H(L(f)| A(f)) (2)

其中A(f)表示作为先验信息的对数谱的一般形状。R(f)表示统计输入图像特有的奇点。在本文中,我们定义R(f)作为一幅图像的光谱残差。

如图3所示,平均曲线表示局部线性度。 因此,采用局部平均滤波器hn(f)近似A(f)的形状是合理的。在我们的实验中,n等于3。改变hn(f)的大小仅稍微改变结果(见图5)。平均频谱A(f)可以近似通过对输入图像进行卷积:

A(f) = hn(f ) lowast; L(f ) (3)

hn(f )是一个定义为n*n的矩阵:

图4.形状信息A(f)从原始对数谱L(f)中去除。

谱残差R(f)的均匀分布是可行的,因为在图像的代表神经元中相似反应是可得到的[19]。

图5.在Eq.3中使用不同的平均滤波器hn(f)的示例

hn(f)的大小对结果的影响非常微小。因此,光谱残差R(f)的获得可以通过:

R(f) = L(f) minus; A(f). (4)

在我们的模型中,光谱残差包含了图像的创新。 它像场景的压缩表示一样。 使用逆傅里叶变换,我们可以在空间域中构造输出图像显著图。 显著图主要包含场景的重要部分。 剩余光谱的内容也可以解释为一张图片的意外部分。因此,显著性图中每个点的值等于它的平方以表示估计误差。 为了更好的视觉效果,我们用高斯滤波器g(x)(sigma;= 8)平滑了显著性图。

总的来说,考虑到一幅图像的I(x),我们有:

A(f) = real; F I(x) , (5)

P(f) = image; F I(x) , (6)

L(f) = log A(f) , (7)

R(f) = L(f) minus; hn(f ) lowast; L(f ), (8)

S(x) = g(x) lowast; Fminus;1[exp R(f ) P (f )]2. (9)

3.在显著性图中检测原物体

显著性图是原型对象的显性表示,在本节中,我们使用简单的阈值分割来检测原型对象的显著性。考虑到一幅图像的 S(x),对象图O(x)的获得途径:

(10)

当S(x)大于阈值时,O(x)等于1,其他时等于0.

根据以往经验,我们设置 阈值 = E S(x)times;3,其中E S(x)是显着图的平均强度。阈值的选择是虚假警报和忽略物体之间的权衡问题。第4.1节 对此问题进行了的简要讨论。

当生成对象图O(x)时,可以从输入图像中的对应位置轻松地提取原型对象。依次提取多个目标。

3.1.视觉尺度选择

视觉系统以某种尺度工作。 例如,在大规模的情况下,人们可以将房屋视为物体,但是在小规模的情况下,房屋的前门很可能会以物体的形式出现。我们的实验中的尺度选择等于输入图像尺寸的选择。当图像较小时,省略了详细的特征,并且进行大量视觉搜索。 然而,在更细微的尺度上,除非图像突然变化,否则大的特征相对于小的特征更没有竞争力。改变比例会导致显着性图的不同结果。该属性可以在图6中示出。

图6.不同规模的关注点

视觉尺度与视觉传感器的光学能力密切相关。对于一个预先注意的任务,采用常数因子作为视觉尺度的估计是合理的。但是预注意视觉的空间分辨率非常有限[5]。没有一个缓慢的审查过程,人类就不可能感觉到与傅立叶频谱中的高频部分相对应的图像的细节[12]。根据模拟实验,我们发现输入图像宽度(或高度)的64像素是正常视觉条件尺度的一个很好的估计。

4.实验和分析

评估物体检测系统的性能是不容易的。广泛使用的测量之一是记录眼动[7]。 然而,这种方法不适用于我们的实验,因为眼睛跟踪器仅记录位置信息—区域的大小和形状不能记录参与。此外,隐藏注意力在物体检测中起着重要的作用,原型物体没有明显的眼动也是可以感觉到的。

4.1.结果评估

在我们的实验中,我们为自然场景图像提供4个无限制主题。这些图像取自[11],[10]和[26]。每个受试者被指示“选择呈现物体的区域”。如果报告的每个受试者不能在特定图像中定义对象,则该图像将被从数据集中删除。最后,收集了62张图像来测试我们的方法的性能。

实验的目的不同于分割[10]。分段任务的主要问题是空间突然变化。但在我们的任务中,手标签器只集中在前景和背景之间的边缘。

对于每个输入I(x),二进制图像从第k个手标签器表示为Ok(x),其中1表示目标对象,0表示背景。给定生成的显着图S(x),可以获得命中率(HR)和错误率(FAR):

(11)

F AR= E (12)

图7.从输入图像中检测对象. 物体根据它们的显着性强度依次弹出.

该标准规定了最佳显着性检测系统应该在没有手持标签器建议原型对象的区域中反应较低,并且在大多数贴标机遇到原始对象的共识的区域中响应很高。

我们将我们的结果与现有的方法进行比较,我们还生成基于Itti着名理论[8]作为控制集的显着图。该方法的MATLAB实现可以从http://www.saliencytoolbox.net 网站中下载。Itti的方法是将图像下采样设为320times;240。对于光谱残差法,每个颜色通道被独立处理。 为了进行比较,我们必须使两种方法的FAR或HR相等。例如,给定光谱剩余显着图的FAR,我们可以通过调整Itti的方法S(x)的显着图的参数C:

(13)lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[483967],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。