用于图像识别的局部金字塔描述子外文翻译资料

 2022-03-30 21:38:23

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


用于图像识别的局部金字塔描述子

Lorenzo Seidenari, Giuseppe Serra,

Andrew D. Bagdanov, and Alberto Del Bimbo

摘要——在本文中,我们提出了一种新的方法来提高图像识别中描述符匹配的灵活性,即在特征空间中使用局部多分辨金字塔。 我们提出将图像块以多级描述符细节表示,并且这些级别根据局部空间池分辨率来定义。在学习和识别过程中,保留局部描述符中的多个层次的细节在层次与匹配相关上一种对冲赌注的方式。

本文介绍金字塔SIFT(P-SIFT)描述符,并显示其在四个最先进的图像识别管道中的使用可提高准确性并获得最新的结果。本文的技术可独立于空间金字塔匹配应用,并且本文将显示空间金字塔可以与当地金字塔结合以获得进一步改进。

与基于强度图像上的SIFT特征的其他方法相比,本文在Caltech-101(80.1%)和Caltech-256(52.6%)上实现了最新的结果,其技术非常高效,并且非常易于集成到图像识别管线中。

索引术语 - 对象分类 本地特征 内核方法

概述

图像中的对象类识别在计算机视觉研究界日益重要。在许多图像表示策略中,基于局部特征的模型捕捉图像中最独特和主要的结构已被广泛使用,并表现出优异的性能。基于特征的图像表示通常由一组局部特征组成,这些局部特征是从显著兴趣点周围的补丁或规则网格中提取的[1],[2]。Bag-of-Words(BOW)流水线及其变体吸引了文本表示和检索的类比[1],通过使用视觉词语频率统计作为图像描述符。视觉词通常使用对局部特征采样的k均值聚类来确定。一旦局部图像特征被映射到词典单词,共享阶段将局部视觉词频统计累积成基于直方图的全局图像表示,适合用分类器(如支持向量机)进行识别。许多技术已经被提出用来改进BOW流水线的空间合并、特征量化和内核分类阶段。

在本文中,我们提出了一种构建局部特征描述符的策略,以多级分辨率捕获局部信息。本文的主要思路,如图1所示的SIFT特征,是定义一个由多分辨率描述符集合而不是由单个分辨率描述符组成的局部特征。这使我们能够在多个细节层次捕捉到本地修补程序的外观,并保持独特性,同时保持每个分辨层次的不变性,本文的方法可以应用于任何可以自然地构造为多分辨率集的描述符。局部图像描述符通常通过一个公共管道从原始图像补丁开始计算,并采用以图像测量的局部空间池结束的变换序列[3]。空间合并阶段根据合并区域的数量,位置和大小进行参数化,我们可以通过改变池区大小和密度来简化任何描述符。除了SIFT [4],结合空间汇聚阶段的描述符还有HOG [5],GLOH [6],DAISY-like描述符[3]和SIFT-like颜色描述符[7]等。本文的方法是对空间金字塔和多尺度局部描述符采样的补充。本文演示了局部金字塔描述符如何改进标准BOW方法的图像分类结果,以及三种成功和更新的编码技术:有效匹配内核[8],局部性约束线性编码[9]和Fisher矢量模型图像分类[10]。在下一节中,回顾了与本文的方法有关的文献,并在第3节中定义了一个基于Sum Match Kernel的普通图像分类框架中使用的多分辨率金字塔SIFT描述符(P-SIFT描述符)。这个框架在第4节中使用,展示了如何将金字塔特征合并到四种最先进的图像识别流水线中,这些流水线可以被认为是Sum Match Kernel方法的近似值。可以证明,这些模型中的每一个都很好地融合了多分辨率描述符,在第5节中,表明了使用P-SIFT描述符可以在Caltech-101和Caltech-256数据集上获得最先进的性能。

图1 金字塔形SIFT描述符是一组三个SIFT描述符,用于描述不同详细程度的补丁

国内外研究现状

计算两幅图像之间相似性并表示为局部特征集合的一种自然方法是The Sum Match Kernel [11],其出发点是将关于所有特征描述符对的信息合并到两组之间。 Sum Match Kernel从理论角度来看是有趣的,但实际上在计算上是繁重的,因为它在每个图像的特征数量上的计算是二次的。特别是考虑到目前图像检索中存在大规模计算,采用图像表示并使用在图像数量方面能够很好地扩展的内核是非常重要的。许多最先进的图像识别方法,包括BOW模型本身,都是基于Sum Match Kernel的直接有效近似。 Parsana等人[12]提出了集成特征共现和局部特征空间信息的邻域核。虽然这些方法产生了最新的结果,但在图像数量和邻域大小方面它们的空间和时间复杂度的数量级是二次方的。为了更有效地计算这些内核,Boetal.[8]最近提出了将局部特征映射到低的有效匹配内核(EMK),然后通过对得到的特征向量进行平均来构造集合特征空间。

对特征编码的改进主要集中在更好的表示方法和局部特征的重构上,通常使用多个词汇表描述符。Zhang等人[13]提出了一个图像分类框架,利用非负稀疏编码和稀疏矩阵分解。同样,Wang等人 [9]提出了替代矢量量化的局部约束线性编码(LLC)技术。LLC使用局部约束将每个描述符投影到局部坐标系上,并且在与max-pooling结合使用时已经被证明可以改进BOW模型。像LLC这样的方法尤其令人感兴趣,它表明使用线性SVM获得了最新的识别结果,这对于效率和可扩展性非常重要。刘等人[14]深入分析了局部特征对视觉词的软分配,他们表明,软分配只考虑编码的k-最近码,可以与更复杂的LLC和稀疏编码技术相媲美。 Perroninet等人[10]根据局部特征对数似然关于生成模型参数的混合梯度提出Fisher向量作为全局图像表示。

在视觉单词出现的经典BOW直方图中,局部特征之间的关系完全丧失。 它无法说明一个词与另一个词的接近程度,以及它们出现的空间配置或在图像中的全局坐标。为了将空间信息嵌入BOW表示中,Lazebnik等人[15]介绍了空间PyramidMatching(SPM)内核,它将图像划分为越来越细的子区域,计算每个子区域中局部特征的BOW直方图,并连接直方图以形成图像的最终表示。 杨等人[16]提出了SPM方法的扩展,该方法不是传统的k方法量化,而是基于SIFT特征的稀疏码计算空间金字塔图像表示。

一些研究人员不是将图像特征集合量化为直方图表示,而是研究了用于比较不同大小的局部特征集合的替代方法.Grauman和Darrel [17]提出了金字塔匹配内核(PMK),它找出了两组特征点。他们的方法需要在每个分辨率级别上发生的匹配数量的加权和,这些匹配数量是通过在特征空间上放置一系列越来越粗糙的网格来定义的。在任何分辨率下,如果两个特征点落入网格的同一个单元格中,它们将匹配,精细分辨率的匹配比粗糙分辨率的匹配要多。Boiman等人[18]提出了一个微不足道的近邻,即在特征空间中采用最近邻距离的朴素贝叶斯最近邻分类器(NBNN)。NBNN计算没有描述符量化的直接图像到类的距离。去除量化步骤使得分类精度得到显着提高。Tuytelaars等人后来延伸了这种方法[19]谁介绍了核心版本的NBNN。 Duchenne等人[20]提出了一个基于图的图像表示,其节点和边分别代表与粗糙图像网格及其邻接关系相关的区域。匹配两幅图像的问题被表述为多标签马尔可夫随机场中的能量最小化问题。

用于识别的金字塔SIFT描述符

在本节中,我们将描述如何使用局部描述符金字塔来表示图像。我们还根据Sum Match Kernel框架描述了Bag Of Features(BOF)图像表示和分类的一般框架。

P-SIFT描述符

我们在一个规则网格上采样的图像中考虑SIFT描述符[4]。对于每边大小为S的块,我们定义N2池区域中心的相对中心(例如,在图1中,介质SIFT对应于N = 4),作为笛卡尔乘积R = Ctimes;C,其中:

(1)

对于常规网格上的特征点,本地共享中心Rs = {s c | cisin;R}由特征位置s和公式(1)定义的偏移量定义。

我们定义Itheta;= arctan(Iy,sigma;/Ix,sigma;),其中Ix,sigma;和Iy,sigma;分别是图像I在x和y方向上的比例sigma;处的高斯导数。Itheta;量化为8个角度,并且对于每个池区域(由其中心risin;Rs确定),计算方向直方图。当对每个角度进行分箱时,以点s为中心的色块中的像素p的贡献通过其在比例sigma;处的梯度量值和截断的三角窗来加权:

(2)

金字塔形SIFT(P-SIFT)1描述符通过改变池化分辨率N来构建,池化分辨率N控制用于计算每个直方图的每个子区域的数量和大小。一个P-SIFT由多个SIFT描述符组成,这些描述符描述不同细节层次的补丁。与[21]相似,我们根据贴片尺度和合并区域数量N2来设置微分尺度sigma;。图1说明了由三级分辨率组成的P-SIFT描述符的构造,图像特征(圆形边缘)以三个细节级别被捕获:对于N = 2(粗SIFT)实际上与角落不可区分在N = 4(中等SIFT)处,圆形结构开始出现,并且在N = 6(细SIFT),圆形结构是明显的。

从现在开始,我们假设用一组局部特征X表示图像I:

(3)

其中每个局部特征描述符是多分辨率P-SIFT描述符,其由在汇聚分辨率N1isin;{N1,...,NL}提取的L个SIFT描述符组成为l = 1,... ,L:

(4)

每个原始描述符xli是在第l个分辨率Nl处计算的SIFT描述符。

3.2金字塔描述符上的总匹配核

这一节我们展示了前一节中描述的P-SIFT描述符是如何集成到Sum Match Kernel框架中。让X和Y作为两个表示为Bag的特征。规范化的Sum Match Kernel定义如下:

(5)

其中|·| 是一个集合的基数,k(x,y)是表示两个局部描述符之间相似度的核函数。

当x和y是P-SIFT描述符时,其中每个描述符都是第3节中描述的L个SIFT描述符的有序元组,我们的P-SIFT描述符上的本地核被定义为局部金字塔每个级别描述符相似度的加权:

(6)

其中wl是对应于本地金字塔等级l的权重,并且kl(x,y)是分辨率局部核心,其表示在第1级分辨率下基元描述符x和y之间的相似度。局部金字塔中每个级别的相似度都是根据相应级别的描述分辨率进行加权的。如果L描述符按照分辨率从小到大的顺序排列,我们将等级l的权重定义为w1 = 2l-L。

这种由[15],[17]启发的加权方案在初步实验中证明是有效的,并且被设计成使得在特征最明显的较细分辨率处的相似性比粗糙分辨率的相似性的权重更高。统一和颠倒加权导致精度较低。

金字塔特征的归一化和匹配核的最终形式为:

(7)

为了对我们的金字塔形内核的行为给出一些思路,在图2中,我们示出了使用等式(6)中描述的局部内核对来自Caltech-101的两幅面部图像的局部描述符进行多分辨率匹配的示例。在这个例子中,我们使用局部核kl(x,y)= exp(-gamma;|| xl-yl || 2)来衡量本地金字塔每一层的相似度。第一列显示从面部图像中选择的两个补丁,用作查询并封闭测试图像。其余的列显示查询补丁与来自测试图像的密集的本地补丁之间在不同级别的描述符分辨率下的相似性。观察这两个选定的斑块具有不同程度的独特性。事实上,虽然眼罩具有强烈的独特性,但另一个眼贴片可以

全文共18155字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14765],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。