英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
本地尺度不变特征的对象识别
David G. Lowe
计算机科学系
不列颠哥伦比亚大学
摘要
使用新类别的局部图像特征的对象识别系统已经被开发出来了。特征对于图像缩放,平移和旋转是不变的,并且对照明变化和仿射或3D投影是部分不变的。这些特征与下颞皮质中用于在灵长类视觉中的对象识别的神经元享有类似的性质。通过分级过滤方法可以有效地检测特征,该方法识别尺度空间中的稳定点。创建允许通过在多个定向平面和多个尺度上表示模糊的图像梯度的局部几何变形的图像密钥。这些图像密钥用作标识候选对象匹配的最近邻居索引方法的输入。通过为未知模型参数找到低残差最小二乘解来实现每个匹配的最终验证。实验结果表明,在杂乱的部分遮挡图像中实现鲁棒的物体识别的计算时间可以在2秒内完成。
- 介绍
在杂乱的现实世界场景中的对象识别需要不受附近杂波或部分遮挡影响的局部图像特征。特征必须至少部分地不依赖于照明,3D投影变换和共同的对象变化。另一方面,特征也必须充分独特以在许多其他对象中识别特定对象。物体识别问题的难度在很大程度上是由于缺乏成功地找到这样的图像特征。然而,最近对密集局部特征的使用的研究(例如,Schmid和Mohr [19])已经表明,有效识别通常可以通过使用在大量可重复位置处采样的局部图像描述符。
本文提出了一种称为尺度不变特征变换(SIFT)的图像特征生成的新方法。该方法将图像变换成局部特征向量的大集合,其中每个局部特征向量对于图像平移,缩放和旋转是不变的,并且对于照明变化和仿射或3D投影是部分不变的。先前的局部特征生成方法缺乏尺度的不变性,并且对投影失真和光照变化更敏感。SIFT特征与灵长类动物视觉中的下颞(IT)皮层中的神经元的响应享有许多共同的性质。本文还描述了改进的索引和模型验证方法。
通过使用分级过滤方法有效地识别尺度不变特征。第一阶段通过寻找高斯差分函数的最大值或最小值的位置来识别尺度空间中的关键位置。每个点用于生成描述相对于其尺度空间坐标系采样的局部图像区域的特征向量。这些特征通过模糊图像梯度位置来实现对局部变化(例如仿射或3D投影)的部分不变性。这种方法是基于哺乳动物视觉的大脑皮层中复杂细胞的行为模型。得到的特征向量被称为SIFT密钥。在当前实现中,每个图像生成大约1000个SIFT密钥,该过程需要少于1秒的计算时间。
从图像导出的SOFT密钥在最近邻法中用于索引以识别候选对象模型。首先通过Hough变换散列表来识别关于潜在模型姿态的密钥的集合,然后通过最小二乘法拟合到模型参数的最终估计。当至少3个密钥与具有低残差的模型参数一致时,这对于对象的存在是一个强有力的证据。由于在典型对象的图像中可以存在几十个SOFT密钥,因此可以在图像中具有相当大的遮挡水平下,仍然可能保持高水平的可靠性。
当前对象模型表示为可以经历仿射投影的SIFT密钥的2D位置。允许特征位置中的足够的变化以识别在距离相机最多60度旋转的平面形状的透视投影,和允许3D对象的高达20度的旋转。
- 相关研究
对象识别广泛用于机器视觉行业中用于检查,登记和操作的目的。然而,当前用于对象识别的商业系统几乎完全依赖于基于相关的模板匹配。虽然对于某些工程环境非常有效,其中对象姿态和照明被严格控制,当对象旋转,尺度,照明和3D姿势被允许变化时,模板匹配变得不可计算,尤其在处理部分可见性和大型数据库时。
搜索所有图像位置来进行匹配的替代方案,它是从图像中提取对图像形成过程至少部分不变并且仅与那些特征匹配的特征。当前已经提出并探索了许多候选特征类型,包括线段[6],边缘分组[11,14]和区域[2],以及许多其他提议。虽然这些特征对于某些对象类有效,但是它们经常不能被足够频繁地检测,也不具有足够的稳定性来形成用于可靠识别的基础。
最近有开发更密集的图像特征的收集工作。一种方法是使用角点检测器(更精确地,局部图像变化中的峰的检测器)来识别可重复的图像位置,围绕该位置可以测量局部图像属性。Zhang et al. [23]使用哈里斯角点检测器来识别从不同视点拍摄的图像的核线对准的特征位置。不是尝试将来自一个图像的区域与第二图像中的所有可能区域相关联,而是通过仅匹配以每个图像中的角点为中心的区域来实现计算时间的大量节省。
对于物体识别问题,Schmid和Mohr [19]还使用哈里斯角点检测器来识别兴趣点,然后从高斯图像测量导数的方向不变矢量中,在每个兴趣点创建局部图像描述符。这些图像描述符用于鲁棒的对象识别,它通过寻找满足基于对象的定向和位置约束的多个匹配描述符来实现。这项工作对于在大型数据库中的识别速度和处理混乱图像的能力是令人印象深刻的。
在这些以前的方法中使用的角点检测器具有一大败笔,就是它们只在单个尺度检查图像。随着尺度的剧烈变化,这些检测器会响应于不同的图像点。此外,由于检测器不提供对象尺度的指示,因此有必要创建图像描述符并尝试以大量尺度进行匹配。本文介绍了一种识别标尺空间中稳定关键位置的有效方法。这意味着图像的不同缩放将对所选择的关键位置的集合没有影响。此外,为每个点确定显式比例,这允许以每个图像中的等效比例对该点的图像描述向量进行采样。在每个位置处确定规范取向,使得可以相对于一致的局部2D坐标框架执行匹配。 这允许使用比由Schmid和Mohr使用的旋转不变的图像描述符更加不同的图像描述符,并且描述符被进一步修改以改进其对仿射投影和照明的变化的稳定性。
基于外观的识别的其他方法包括特征空间匹配[13],颜色直方图[20]和接受场直方图[18]。这些方法都已经成功地在孤立对象或预分割图像上演示,但是由于它们更全面的特征,难以将它们扩展到混乱和部分遮挡的图像。Ohba&Ikeuchi [15]成功地在杂乱图像中应用,通过使用许多小的局部本征窗口,但这需要昂贵的在一个新的图像中搜索每个窗口,如同模板匹配那般。
- 关键定位
我们希望在图像尺度空间中识别关于图像平移,缩放和旋转不变的位置,并且最小化噪声和小失真的影响。 Lindeberg [8]已经表明,在尺度不变性的一些相当一般的假设下,高斯内核及其导数是尺度空间分析的唯一可能的平滑内核。
为了实现旋转不变性和高水平的效率,我们选择在尺度空间中应用高斯函数,通过在高斯函数地差的差的最大值和最小值处选择关键位置。这可以通过在每个级别之间重建采样来构建图像金字塔来非常有效地计算。此外,它将关键点定位在高变化的区域和尺度,使得这些位置对于表征图像特别稳定。Crowley和Parker [4]和Lindeberg [9]先前已经将尺度空间中的高斯差用于其他目的。在下面,我们描述一种特别有效和稳定的方法来检测和表征该函数的最大值和最小值。
由于2D高斯函数是可分离的,因此通过在水平和垂直方向上应用1D高斯函数的两次通过,可以有效地计算其与输入图像的卷积:
对于关键定位,所有平滑操作通过使用完成,其可以使用具有7个采样点的1D内核以足够的精度近似。
输入图像首先与高斯函数卷积得到图像A。然后,通过进一步增加平滑,重复第二次给出一个新的图像B,现在有一个有效的平滑。高斯函数的差通过从A中减去图像B来获得,导致两个高斯之间的比率为2/。
为了生成下一个金字塔等级,我们使用在每个方向上具有1.5的像素间隔的双线性内插对已经平滑的图像B进行重采样。虽然以的相对尺度进行重采样似乎更自然,但唯一的约束是采样频率要足够高才能检测峰值。1.5间距意味着每个新样品将是4个相邻的像素。通过改变采样系数可以有效地计算和最小化混叠伪像。
这个尺度空间函数的最大值和最小值,通过将金字塔中的每个像素与其相邻像素进行比较来确定。首先,将像素与其在金字塔的相同水平处的8个相邻像素进行比较。如果它是在这个水平中的最大值或最小值,考虑到1.5倍重采样,则最接近的像素位置设置在金字塔的下一个最低的水平来计算。如果像素保持比该最接近的像素及其8个相邻像素更高(或更低),则对上述水平重复该测试。由于大多数像素将在几次比较中被消除,所以这种检测的成本小,并且比构建金字塔的成本低得多。
如果以对输入图像相同的速率对金字塔的第一级进行采样,则将忽略最高空间频率。这是由于初始平滑,其需要提供用于鲁棒检测的峰的分离。因此,在构建金字塔之前,我们使用双线性插值将输入图像扩大2倍。对于典型的512times;512像素图像,这给出了1000个密钥点的顺序,相比之下,只有四分之一没有初始扩展。
-
- SIFT密钥稳定性
为了表征每个密钥位置处的图像,处理金字塔的每个级别处的平滑图像A以提取图像梯度和方向。在每个像素上,表示图像梯度幅度,表示方向,使用像素差来计算:
由于先前平滑的实质水平,像素差异可以有效地计算并提供足够的精度。当确定密钥位置时补偿位置中的有效半像素位移。
通过将梯度大小阈值设置为最大可能梯度值的0.1倍的值来增强对照明变化的鲁棒性。这减少了具有3D浮雕的表面的照明方向的变化的影响,因为照明变化可以导致梯度幅度的大变化,但是可能对梯度定向具有较小的影响。
图1:第一个图通过旋转,缩放,拉伸,亮度和对比度的改变以及添加像素噪声来生成第二个图。尽管这些变化,来自第一图像的78%的密钥在第二图像中具有紧密匹配的密钥。这些示例仅显示了用于减少杂乱的密钥的子集。
每个密钥位置被分配规范定向,使得图像描述符对于旋转是不变的。为了使其对于照明或对比度变化尽可能稳定,取向由局部图像梯度定向的直方图中的峰值确定。使用高斯加权窗口创建方向直方图,,其中为当前平滑标度的3倍。这些权重乘以阈值化的梯度值,并且在对应于取向的位置处在直方图中累积,。直方图具有覆盖360度旋转范围的36个直方体,并且在峰值选择之前被平滑。
可以通过对自然图像进行仿射投影,对比度和亮度变化以及添加噪声来测试所得密钥的稳定性。可以根据变换参数的知识在变换图像中预测在第一图像中检测到的每个密钥的位置。该框架用于选择上面给出的各种采样和平滑参数,使得可以获得最大效率,同时保持对变化的稳定性。
图像变换 |
匹配 % |
方向 % |
A.将对比度提高1.2 |
89.0 |
86.6 |
B.降低强度0.2 |
88.5 |
85.9 |
C.旋转20度 |
85.4 |
81.0 |
D.缩放0.7 |
85.1 |
80.3 |
E.拉伸1.2 |
83.5 |
76.1 |
F.拉伸1.5 |
77.7 |
65.0 |
G.添加10%像素噪声 |
90.3 |
88.4 |
H.All of A,B,C,D,E,G. |
78.6 |
71.8 |
图2:对于应用于20个图像的样本的各种图像转换,此表格提供了在匹配的位置和尺度找到的密钥的百分比(匹配 %),并且也与方向匹配(方向)。
图1显示在仅仅较大尺度的2倍频程范围内检测到的相对较少数量的密钥(以避免过多的杂波)。每个密钥显示为正方形,具有从正方形指示取向的中心到一侧的线。在该图的后半部分中,图像旋转15度,缩放0.9倍,并在水平方向上伸展1.1倍。在0到1的范围内的像素强度从它们的亮度值中减去0.1,并且通过乘以0.9而减小的对比度。随后添加随机像素噪声以给出小于5比特/像素的信号。尽管有这些变换,但是第一图像中的78%的密钥在预测的位置,第二图像中尺度和取向上在具有非常匹配的密钥。
可以从表2中判断密钥对图像变换的整体稳定性。该表中的每个条目是从组合20个不同测试图像的结果生成的,并且总结了大约15,000个密钥的匹配。表的每一行显示特定的图像变换。第一个图形给出了在位置(相对于该密钥的比例)和因子1.5的规模下的转换图像中具有匹配密钥的密钥的百分比。第二列给出与这些标准匹配的百分比,以及具有在预测的20度内的取向。
- 局部图像描述
给定每个密钥的稳定的位置,尺度和取向,现在可以对于这些变换不变的方式描述局部图像区域。另外,期望使这种表示对于局部几何形状中的小偏移是鲁棒的,例如从仿射或3D投影产生。对此的一种方法是通过视觉皮层中复杂神经元的响应特性提出的,其中允许特征位置在小区域上变化,同时维持定向和空间频率特异性。Edelman,Intrator&Poggio [5]进行了模拟复杂神经元对计算机图形模型的不同3D视图的反应的实验,发现复杂细胞输出提供比简单的基于相关的匹配更好的辨别力。这可以看出,例如,如果仿射投影在一个方向上相对于另一个方向伸展图像,这改变了梯度特征的相对位置,同时对它们的取向和空间频率具有较小的影响。
可以通过利用表示多个方向(称为定向平面)中的每一个的多个图像来表示局部图像区域,来获得对局部几何失真的鲁棒性。每个定向平面仅包含对应于该定向的梯度,其中线性内插用于中间定向。每个定向
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[139439],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。