图像检索:新时代的概念、影响和趋势外文翻译资料

 2022-06-28 23:05:57

英语原文共 60 页,剩余内容已隐藏,支付完成后下载完整资料


图像检索:新时代的概念、影响和趋势

RITENDRA DATTA, DHIRAJ JOSHI, JIA LI, and JAMES Z. WANG

宾夕法尼亚州立大学

我们目睹了基于内容的图像检索作为一项新兴技术,对其有极大兴趣和丰富的承诺。尽管过去十年为这些承诺奠定了基础,但是它也为大量新的技术和系统铺平了道路,吸引了许多新人参与,并使弱相关领域的关联变得更强。在这篇文章中,我们研究了大约300个在当前十年与图像检索和自动图像注释有关的关键的理论和实证贡献,和在此过程中产生的相关子领域。我们还讨论了适应现有图像检索技术的重大挑战,来建立在现实世界中有用的系统。回顾我们到目前为止已经取得的成就,我们也猜测未来的图像检索技术研究是什么样的。

类别和主题描述符:H.3.1 [信息存储和检索]:内容分析和检索—索引方法;I.4.9 [图像处理和计算机视觉]:应用

一般条款:算法,文档,性能

其他关键词和短语:基于内容的图像检索,注释,标记,建模,学习

ACM参考格式:

Datta, R., Joshi, D., Li, J., and Wang, J. Z. 2008. Image retrieval: Ideas, influences, and trends of the new age. ACM Comput. Surv. 40, 2, Article 5 (April 2008), 60 pages DOI = 10.1145/1348246.1348248 http://doi.acm.org/10.1145/1348246.1348248

  1. 介绍

尼尔斯·亨利克·戴维·玻尔(Niels Henrik David Bohr)说“永远不要比自己能够想象的更清楚地表达自己”究竟是什么意思是任何人的猜测。根据目前的讨论,一个人认为这句广为人知的引语是微妙的讽刺。当我们想象我们的愿望时,是有时间和情况的,但无法用精确的措辞表达这种愿望。例如,抱一个愿望从集合中找到完美的肖像。任何尝试去表达什么使肖像“完美”可能会结束低估想象力的美。在某种意义上,找到通过收藏观看,并通过想象吸引无意识的“匹配”的一幅画面可能比使用未能捕捉完美本质的文字描述更简单。一个去欣赏对图像内容进行视觉解释以进行索引和检索的重要性的方法就是这。

我们组织事物的动机是固有的。多年以来,我们了解到,这是在不丧失我们已有的东西的情况下取得进展的关键。数百年来,用不同的语言的文本为了有效的检索已经被设定好了,可以在古代的书目中手动使用,也可以自动地在现代数字图书馆中使用。但是在组织图片方面,人们在大多数任务中传统上都优于机器。造成这种区别的一个原因是文本是人的创造,而典型的图像仅仅是人类从出生以来看到的复制品,其具体描述是相对难以捉摸的。并且人类视觉系统已经在几个世纪内发生了基因演变。当然,我们看到的解释很难形容,教授一台机器甚至更难。 然而,在过去的十年中,已经做出了雄心勃勃的尝试,来使计算机学会理解,索引和注释代表广泛概念的图片,并取得了很多进展。

基于内容的图像检索(CBIR),正如我们今天看到的那样,是原则上有助于通过视觉内容组织数字图片档案的任何一种技术。通过这个定义,任何从图像相似性函数到强大的图像符号引擎都属于CBIR的范畴。作为一个研究领域的CBIR的特征把它置于科学界的独特时刻。尽管我们见证了对解决强大的图像理解这一基本开放问题的持续努力,我们也看到来自不同领域的人,比如,计算机视觉,机器学习,信息检索,人机交互,数据库系统,网络和数据挖掘,信息理论,统计学和心理学,并成为CBIR社区的一部分[Wang et al. 2006]. 此外,这些研究团体之间的差距横向弥合正逐渐成为这些捐助的副产品,其影响可能超出CBIR。再次,我们今天看到的几个跨领域出版物很可能会在可预见的将来进入新的研究领域。认识到CBIR作为这种领域关系中的实际技术的缺点是很重要的。当前所有方法的一个问题是,由于低级内容和更高级别的概念与视觉相似性之间的语义差距[Smeulders et al. 2000],确定可能存在问题的语义相似性的能力是相互依赖的。虽然解决核心问题的固有困难不能否认,但如果进行了积极的尝试,CBIR的最新状态保持了足够的承诺和成熟度,我相信对真实世界的应用有用。例如,谷歌和雅虎今天是家喻户晓的名字,主要是因为通过使用它们获得了好处尽管强大的文本理解仍然是一个开放的问题。在线照片分享已经变得非常受Flickr的欢迎,该网站拥有内容各不相同的数亿张照片。视频分享和发行论坛YouTube也引发了多媒体使用的新革命。最近,媒体重新关注CBIR和图像分析技术的潜在实际应用,正如出版物《科学美国人》[Mirsky 2006],《发现新闻》[Staedter 2006]和CNN [2005]所证明的那样。我们预计图像检索将在未来几年中取得成功。我们也感受到下一代CBIR研究人员目标的范式转变。 需要时间去确定这种技术如何以文本检索技术的方式向普通人伸出援助之手。 视觉相似性甚至语义相似性(如果有的话)的方法仍然是构建系统的技术。最终用户使用这种系统可以获得什么是完全不同的问题。在某些应用中,视觉相似性实际上可能比有意义更重要。对于其他人来说,视觉相似性没有多大意义。如果一个典型的用户觉得需要一个CBIR系统,用户在系统中设置什么,以及系统期望如何支持这个过程,遗憾的是 ,对目前用户这种性质的调查还不够。

关于CBIR的主题进行了全面的调查[Aigrain et al.1996; Rui et al.1999; Smeulders et al. 2000; Snoek and Worring 2005], 其中主要涉及2000年以前的工作。调查还存在密切相关的主题,如相关性反馈[Zhou and Huang 2003], 高维索引多媒体数据[Bohm et al. 2001], 人脸识别[Zhao et al. 2003] (用于基于脸部的图像检索),CBIR在医学中的应用[Muller et al. 2004], 并应用于艺术和文化影像[Chen et al. 2005]. 多媒体信息检索作为一个覆盖视频,音频,图像和文本分析的更广泛的研究领域已经得到广泛的调查[Sebe et al. 2003; Lew et al. 2006]. 在我们目前的调查中,我们仅限于讨论图像相关的研究。.

撰写本调查的一个原因是CBIR,从2000年开始,就与利益相关方一起发表的论文而言,横向增长也来自跨越不同学科的相关研究任务。为了证明关于出版物增长的假设,我们做了一个简单的练习。我们在1995年至2005年每年使用Google Scholar搜索了包含短语“图像检索”的出版物[Google Scholar 2004] 和ACM,IEEE和Springer的数字图书馆。为了说明:(a)计算机科学整体研究的增长,以及(b)Google每年在索引出版物中的变化 ,Google学术搜索结果使用当年“计算机”一词的出版计数进行了标准化。在模式识别中的另一个年轻且快速发展的领域的情节,支持向量机(SVM)以类似的方式产生以用于比较。毫不奇怪,该图显示了两个领域的类似增长模式,但SVM显示出更快的增长。这些趋势基于一个隐含的前提,并对图像检索感兴趣,表明密切相关的主题几乎呈指数增长。过去五年中,新技术,支持系统和应用领域也呈现出强劲增长。

在本文中,我们全面调查,分析和量化当前的进展和图像检索的未来前景。图2中显示了图像检索各个方面的可能组织。我们的文章采用了类似的结构。请注意,治疗仅限于主要在当前十年中的进展,并且仅包括部分涉及视觉分析的工作或完整。为了完整性和对外行人更好的可读性,我们在1.1节中介绍了前几年的重要贡献。纯粹基于文本元数据,Web链接结构或语言标签的图像检索被排除在外。本文的其余部分安排如下:为使CBIR系统在现实世界中有用,需要注意一些问题。因此,第2节讨论了真实图像检索系统的需求,包括其设计的各个关键方面。第3节详细介绍了本十年的一些关键方法和技术。第3节给出了CBIR的核心研究出现新的问题,我们在这里称之为CBIR分支。这些在第4节中讨论。当提出了与CBIR一样的开放式问题的独特解决方案时,出现的一个自然问题是如何在它们之间进行公平比较。在第5节中,我们提出了图像检索系统评估的当前方向。我们在第6节得出结论。

图1.对CBIR 1995年以后出版物的研究。页首:出版物中的标准化趋势包含“图像检索”和“支持向量”短语。底部:出版商,明智地分发包含“图像检索”的论文的出版数量。

图2.我们对图像检索作为研究领域的许多方面的看法。该观点反映在本文的结构中。

1.1早期

1994 - 2000年可以被认为是内容图像检索研究和发展的初始阶段。Smeulders等人在这一阶段所取得的进展在高水平上得到了清晰的总结。[2000]对本十年取得的进展有明确的影响,无疑将继续影响未来的工作。因此,在描述新时代的相同之前,我们对早期的想法,影响和趋势(其中很大一部分来源于该调查)提供了—一个简要的总结。为了做到这一点,我们首先引用了那些定义和激励大多数相关问题的各种差距。

—感官。 感官差距是世界中的客体与从该场景记录得出的(计算)描述中的信息之间的差距。

—语义。 语义鸿沟是人们可以从视觉数据中提取的信息与相同数据对于给定情况下的用户的解释之间缺乏一致性。

虽然前者由于图像内容受到录制带来的限制而具有挑战性,但后者带来了用户对图片的解读以及图片内容难以捕捉它们的问题。我们将继续简要总结处理一个或多个这些差距的早年的主要贡献。在Smeulders等人[2000],图像搜索的领域被分类为狭义和广泛的,迄今为止,对于系统设计而言,这仍然是一个非常重要的区别。如前所述,窄图像域通常具有有限的可变性和更好定义的视觉特征(例如航空相关图片[Airliners.Net 2005]),这使得基于内容的图像搜索更容易制定。 另一方面,对于相同的基础语义概念(例如Web图像),广域往往具有高变异性和不可预测性,这使得泛化更具挑战性。正如Huijsmans和Sebe [2005]最近指出的那样,狭义和广义领域在图像搜索评估中也提出了一个问题,必须对标准评估指标进行适当的修改以保持一致性。该调查还列出了三大类图像搜索:(1)按照关联搜索,在图片中没有明确的意图,而是通过反复改进的浏览进行搜索; (2)寻找特定图像的目标搜索;和(3)类别搜索,其中寻找代表语义类别的单个图片,例如以说明一段文本,如Cox等人所介绍的那样[2000]。还讨论了不同种类的领域知识,可以帮助减少图像搜索中的感官差距。其中值得注意的是句法,感知和拓扑相似性的概念。因此,总体目标仍然是使用可用视觉特征弥合语义和感官差距图像和相关领域知识来支持各种搜索类别,最终满足用户的需求。我们在第2节中从新的角度讨论并扩展了其中的一些观点。在调查中,从图像中提取视觉内容分为两部分,即图像处理和特征构建。这里要问的问题是提取哪些功能将有助于执行有意义的检索。在这种情况下,搜索被描述为对用户意图进行建模的最小不变条件的指定,旨在减少由于意外失真,杂波,遮挡等导致的感官差距。颜色,纹理和形状抽象中的关键贡献被讨论过。最早使用颜色直方图进行图像索引的是Swain和Ballard [1991]。随后,在诸如QBIC等系统中进行特征提取[Flickner et al.1995],Pictoseek [Gevers and Smeulders 2000]和VisualSEEK [Smith and Chang 1997b]都值得注意。通过对镜面反射和形状进行考虑,创造了颜色恒常性,即在环境变化中感知同一颜色的能力[Finlayson 1996]。在Huang等人[1999]提出了颜色相关图作为直方图的增强,同时也考虑了颜色的空间分布。Gabor滤波器被成功地用于在Manjunath和Ma[1996]中针对匹配和检索的局部形状提取.Daubechies的小波变换被用来改进WBIIS系统中的色彩布局特征提取[Wang et al.1998]。用于图像检索的视点和遮挡不变局部特征[Schmid and Mohr 1997]作为弥合感觉间隙的手段受到了重视。基于补丁的局部显着特征的工作[Tuytelaars和van Gool 1999]在图像检索和立体匹配等领域发现了突出的地位。图像的感知分组对于识别图片中的物体很重要,也是一个非常具有挑战性的问题。它在调查中被分为强/弱分割(数据驱动分组),分区(数据独立分组,例如固定图像块)和签名位置(基于固定模板的分组)。在图像分割领域取得了重大进展,例如Zhu和Yuille [1996]将蛇和区域增长思想融合在一个原则框架内,Shi和Malik [2000]将谱图分割应用于这个目的。Del Bimbo和Pala [1997]将图像的弹性匹配成功应用于基于草图的图像检索。 Mokhtarian [1995]研究了多尺度轮廓模型的图像表示。 Petrakis和Faloutsos [1997]研究了使用图表来表示物体之间的空间关系,特别是针对医学成像。在史密斯和张[1997a]中,二维弦[Chang et al.1987]被用于表征区域之间的空间关系。Swets和Weng [1996]提出了一种自动特征选择的方法。在Smeulders等人[2000]中,视觉内容描述的主题是讨论图像分割的优点和问题,以及可以避免强烈分割的方法,同时仍然足够好地表征图像结构以进行图像检索。在当前的十年中,已经提出许多基于区域的图像检索方法,其不依赖于强分割。我们在第3.1节讨论特征提取中的这些和其他新创新。

一旦图像特征被提取出来,问题仍然是如何将它们编入索引并相互匹配以供检索。这些方法本质上旨在尽可能减少语义鸿沟,有时也会减少过程中的感官

全文共101752字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[10553],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。