英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
使用色差直方图的基于内容图像检索
刘光海 杨静宇
摘 要
本文提出了一种新的图像特征表示方法,即色差直方图(CDH),用于图像检索。 这种方法与现有的直方图完全不同; 大多数现有的直方图技术仅计算像素的数量或频率。 然而,CDH的独特之处在于,他们计算了L * a * b *颜色空间中颜色和边缘方向不同背景下两点之间的感知均匀色差。 该方法更注重颜色,边缘取向和感知上均匀的色差,并且通过与人类视觉系统类似的方式通过特征表示对颜色,取向和感知上均匀的色差进行编码。 该方法可视为一种结合边缘取向,颜色和感知均匀色差的新颖视觉属性描述符,并且在不进行任何图像分割,学习过程或聚类实现的情况下考虑空间布局。 实验结果表明,它比现有的最初为基于内容的图像检索而开发的图像特征描述符(例如MPEG-7边缘直方图描述符,彩色自相关图和多文本直方图)效率更高。 在考虑空间布局的同时,使用颜色,纹理和形状特征具有强烈的区分能力。
1 介绍
随着数字图像处理技术的发展,找到一种从大型图像集合中高效地搜索和浏览图像的方法已成为当务之急。 通常,使用三类图像检索方法:基于文本的,基于内容的和基于语义的。 在日常生活中,人们主要通过谷歌,雅虎等搜索引擎搜索图片,这些搜索引擎主要基于文本关键字搜索。 在市场对搜索服务需求的推动下,图像检索已经成为模式识别和人工智能领域非常活跃的研究领域。 当前的图像检索技术通常基于低级特征(例如,颜色,纹理,形状,空间布局),但低级特征通常不能描述高级语义概念; 也就是说,高级概念和低级特征之间存在“语义鸿沟”。 为了减少这种“语义鸿沟”,研究人员采用了机器学习技术来推导出高级语义 。 另外,一些研究人员通过模拟机制来提取低级特征初级视觉皮层 。 基于当前人工智能和认知科学的进步,基于语义的图像检索技术仍然有限。 在本文中,我们主要关注基于内容的图像检索; 基于低级特征,该方法中使用的图像表示技术是将低级特征集成到一个整体中的有效方法。
众所周知,L * a * b *颜色空间中两种颜色之间的视觉感知差异与欧几里德距离的度量有关,但是该图像表示的属性表示及其用于基于内容的图像检索的表示需要进一步研究。 为了解决这个问题,本文提出了一种基于内容的图像检索的特征表示方法,即色差直方图(CDH)。 CDH可视为一般的视觉属性描述符,具有低层特征和空间布局的区分能力。 CDH被设计用于彩色图像分析,其使用可以获得比MPEG-7边缘直方图描述符(EHD)更高的检索精度,颜色自相关(CAC) 和多文本直方图(MTH) 并且可以表示颜色和边缘方向之间在感知上均匀的颜色差异,并且考虑L * a * b *颜色空间中的空间信息。
本文的其余部分安排如下。 在 第2节介绍了相关工作。 在第3节提出该算法; 在第4节,介绍MPEG-7边缘的性能直方图描述符,彩色自相关图像,基于两个包含15,000个图像的Corel数据集进行比较的多文本直方图和所提出的算法。 第5节 总结该论文。
2相关工作
视觉系统从环境中提取信息并将其转换为导致感知的神经编码 ; 颜色,纹理和形状信息是最常见的视觉信息类型,并广泛用于CBIR系统。 经典的CBIR技术基于两种类型的视觉特征:全局特征和局部特征。 基于全局特征的算法针对整个图像作为视觉内容,例如颜色,纹理和形状,而局部基于特征的算法主要关注关键点或显着斑点。 已经设计了各种算法来提取全局和局部特征。
颜色是一种依赖于波长的感觉 已经成为图像检索和物体识别的一个非常重要的视觉提示。 颜色直方图对于方向和比例不变,并且此功能使其在图像分类中更加强大。 基于颜色直方图的图像检索很容易实现,并已在CBIR系统中得到很好的研究和广泛应用。 然而,颜色直方图表征图像空间结构的不同。 因此,已经提出了几种颜色描述符来利用空间信息,包括紧凑彩色矩,颜色相干矢量和颜色相关图 。 在MPEG-7标准中,颜色描述符由许多直方图描述符组成,例如主色描述符,颜色布局描述符和可伸缩颜色描述符
纹理是图像中最重要的特征之一,并虽然不是权威定义。 纹理特征也广泛用于CBIR系统。 已经为纹理分析设计了各种算法,例如灰度共生矩阵 ,田村纹理功能,马尔可夫随机场模型 ,加博过滤 和本地二进制模式 。 MPEG-7标准采用三种纹理描述符:齐次纹理描述符,纹理浏览描述符和边缘直方图描述符 。 实际上,可以将纹理特征与颜色特征组合以提高辨别力,从而提高检索性能。 最常用的方法之一是加入灰度纹理特征和颜色特征。 一些算法最终可以将颜色和纹理结合在一起; 这些包括综合共现矩阵 ,texton共现矩阵 ,多文本直方图 ,颜色边缘共现直方图 ,和微观结构描述符 。 经典纹理描述符的使用可以通过结合颜色通道将结果扩展到彩色图像。 通常,对于每个通道分别计算Gabor特征可以用作颜色纹理描述符。
除了颜色和纹理特征之外,形状特征也在CBIR中使用,因为人类可以仅根据形状识别物体。 描述形状特征的经典方法包括使用矩不变量,傅立叶变换系数,边缘曲率和弧长 。 在MPEG-7中,三种形状描述符用于基于对象的图像检索; 这些是三维形状描述符,基于Zernike矩的基于区域的形状以及曲率尺度空间(CSS)描述符 。 在许多情况下,形状特征提取需要使用图像分割; 这仍然很困难,从而限制了它在实践中的应用。
局部图像特征的提取和描述近年来受到越来越多的关注。 文献报道了几种局部描述符,该技术被称为“尺度不变特征变换”(SIFT) ,是局部特征表示的最普遍形式,并且可以容忍特定水平的照明变化,透视失真和图像变换,并且对遮挡非常稳健。 最近,已经提出了基于Bag-of-Visual的基于词的方法及其衍生自诸如关键点和突出片的局部特征的变体用于对象识别和场景分类 。 实质上,这些方法从文本检索中借用技术。 已经证明,视觉单词表示可以导致改进的对象识别和场景分类性能。 不幸的是,由于视觉单词通常是通过实施聚类来获得的,这会给计算带来沉重的负担,所以视觉单词袋技术具有局限性,例如缺乏语义信息,视觉词语的模糊性以及非常高的矢量维度。 在实际应用中,视觉词的辨别力与文本词的辨别力无法比较。
在本文中,我们采用不同颜色和边缘取向背景下两点之间的感知均匀色差来表示图像,但没有任何模型训练,聚类实现或图像分割。 所提出的算法对颜色,边缘取向和感知上均匀的色差给予了额外的关注,并结合了这些特征的使用。
3 色差直方图(CDH)
心理物理学和神经生物学研究表明人类视觉系统对颜色和边缘取向非常敏感。 颜色与边缘方向之间的感知均匀颜色差异涵盖了丰富多样的视觉信息,是非常有用的信息,在图像内容分析和理解中起着重要的作用。 然而,据我们所知,很少有文章发表如何将颜色和边缘方向上的感知均匀色差应用于图像表示和图像检索。 为此,本文提出了一种新的图像检索描述符。 该描述符结合了方向,颜色和色差的使用,并考虑了空间布局,而不使用任何图像分割或学习过程。
在描述提出的基于色差直方图(CDH)的图像检索方案时,我们首先简单地描述L a b 色彩空间。 其次,我们描述边缘方向的检测。 第三,我们描述了要在L a b 颜色空间中实现的颜色量化,并且最终,我们描述图像特征使用感知均匀的颜色差异。
3.1 L a b 色彩空间
颜色是一个非常重要的视觉属性。在数字处理中,RGB色彩空间是最常用的; R,G和B分量高度相关,因此,色度信息不直接用于使用。 L a b 被设计为感知均匀 。 由于其对人类色彩感知的高度一致性,L a b 色彩空间对于确定色彩之间的差异是一个特别好的选择,并且两个色彩点之间的差异可以作为欧几里得距离来测量 。 在L a b 颜色空间中,通过XYZ坐标的非线性映射计算L a 和b 分量。 该转换使用标准RGB到L ab基于灰度图像检测大小和方向,会丢失大量的色彩信息。 在 [33],Zenzo提出了一种使用全彩色图像进行梯度计算的方法。 核心思想是将坐标(x,y)上的梯度概念扩展为标量函数f(x,y)的向量最大速率。 为了有效检测感知均匀色彩空间中色度变化引起的边缘,我们采用以下方法进行边缘方向检测。
色彩感知是灵长类视觉的中心组成部分,对于我们对世界的感知至关重要,并且可以促进对象的感知和识别。 人类可以辨别数以千计的色调和强度,但只有二十几种灰色。 为了提取颜色信息并简化操作,需要实现颜色量化。 颜色量化的任务是选择和分配一组有限的颜色以表示具有最大清晰度的给定彩色图像。
色彩量化与色彩空间密切相关。 许多色彩空间已被提出并用于图像检索和物体识别。 但是,考虑到各种可用的色彩空间,选择最适合图像检索的色彩空间是很困难的。 色彩空间的选择也是许多图像检索和物体识别算法中的重要步骤。 然而,就数字处理而言,RGB色彩空间是实践中最常用的空间,并且非常简单; 然而,色彩差异不能以接近人类色彩感知的方式在RGB色彩空间中测量。 在这项工作中,我们使用量化为90种颜色的L a b 色彩空间。
3.2 功能表示
颜色,边缘取向和均匀的色差与人类感知密切相关。 特征表示使用色差并考虑颜色的空间信息和边缘方向线索是一个重要的挑战,因为较少的算法使用两种颜色之间的均匀色差和用于特征表示的边缘取向。 实际上,边缘方向量化和颜色量化的结果之间不可避免地存在差异。 即使它们彼此不相似,也可以将不同的边缘方向或颜色分配给相同的值。 另外,两个相似的边缘取向或颜色可以被分配给不同的值。 衡量这种差异是一个重要的问题。 众所周知,可以以接近人类色彩感知的方式测量感知上均匀的色差 [22]。 基于这个思想,我们提出了一种新的图像特征表示方法,称为图像检索的色差直方图(CDH)。 该算法可以表示如下:
(x,y)和(x0,y0)和其颜色指数值为C(x,y)= w1和C(x0,y0)= w2。 (x,y)和(x0,y0)处的角度分别表示为y(x,y) (x,y)= v1和y(x0,y0)= n2。 对于相邻像素,其距离是D和它们各自的量化数字的颜色和边缘方向是W和V,我们定义色差直方图(CDH)如下在实验中,我们将H颜色和C(x,y)和HORIyyx,y)作为最终特征向量H其中DL,Da和Db是L *,a *和b *通道中两个像素之间的相应色差。 在色差直方图中,使用颜色索引信息作为约束条件,H,yTHORN;THORN;可以表示相邻边缘方向之间在感知上均匀的色差,从而导致90-维矢量。 H,yTHORN;THORN;可以表示相邻颜色索引与边缘在感知上均匀的色差方向信息作为约束,导致18维向量; 总的来说,在图像检索过程中,对于最终图像特征获得了一个90times;108 = 108维向量。
以这种方式,方向和感知颜色信息被组合成一个统一的框架,并考虑两种空间布局。 实验结果如图所示 4.5节 证明了108维向量和距离参数D = 1最适合我们提出的框架。
基于两个色差信道,即R-G和G-B信道,使用色差直方图来进行具有不同含义的视频分割。 然而,应该强调的是,所提出的色差直方图(CDH)完全不同于以下所述 和现有的直方图。 建议的色差直方图使用感知上均匀的色差作为直方图中的值。 但是,现有的直方图技术仅关注像素的频率或数量,并将其用作直方图值。
该算法由两种特殊的直方图类型组成,它们在颜色和方向背景下以平行方式计算。 图2 显示了提议的CDH的两个例子。 在所提出的算法中,只选择相同的边缘方向和颜色索引值来计算色差直方图,而不是全部。 造成这种情况的原因有两个:(1)这种方法受到以下观点的启发:在有偏见的竞争记录的背景下,人类视觉皮层中存在选择性注意机制 。 (2)如果在所提出的算法中考虑不同的边缘取向和颜色,则该方法可能导致非常高维向量。
4 实验和结果
在本节中,我们使用两个Corel数据集来演示所提议算法的性能。 在这些实验中,我们从每个类别中随机选择20个图像作为查询图像。 性能根据每个查询的平均结果进行评估。 为了公平比较,我们选择了最初为图像检索而开发的算法,例如边缘直方图描述符(EHD) ,彩色自动对焦(CAC) ,多文本直方图(MTH)。
因为这些采用边缘方向或颜色信息进行图像表示而不需要使用图像分割和模型训练。 使用所提出的算法的在线图像检索系统可在以下网址获得: http://www.ci.gxnu.cn/cbir/.
4.1数据集
各种数据集广泛用于图像研究领域的各种目的; 这些包括Corel数据集,Brodatz纹理数据集,OUTex纹理数据集,Coil-100数据集,ETH-80数据集,Caltech 101数据集和PASCAL VOC数据集。 Corel图像数据集是测试图像检索性能最常用的数据集分析。但是,其他数据库主要用于对象识别或场景分类。 自我收集的数据集也可用于图像检索。
Corel图像数据库包含大量包含各种内容的图像,从动物和户外运动到自然场景。 我们的图像检索系统中使用了两个Corel子集。 所有Corel图像都是从Corel Gallery Magic 20,0000(8张CD)中获得的。 第一个子集是Corel-5K数据集,该数据集包含50个类别,覆盖5000个图像,其中包括各种内容,如再造,树皮,显微图像,瓷砖,食品纹理,树木,波浪,药丸和彩色玻璃。 每个类别都包含JPEG格式的大小为192 x 128或128 x 192的100张图像。 第二个数据集是Corel-10K数据集,该数据集包含100个类别,其中包含10,000个图像,其中包含日落,海滩,建筑物,汽车,马匹,山脉,食物和门等各种内容。 每个类别包含JPEG格式的大小为192 x 128或128 x 192的100张图像。
4.2 距离度量
检索精度不仅取决于强特征表示,还取
全文共10789字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12716],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。