英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
用于人体检测的方向梯度直方图
Navneet Dalal,Bill Triggs
摘要
我们研究了视觉目标检测的特征集问题,并用线性SVM方法进行人体检测来测试,通过与当前的基于边缘和梯度的描述子进行实验对比,得出方向梯度直方图(Histograms of Oriented Gradient,HOG)描述子在行人检测方面表现更加突出。我们研究了计算过程中每一阶段的影响,得出小尺度梯度(fine-scale gradients)、精细方向采样(fine orientation binning)、粗糙空域抽样(coarse spatial binning)以及重叠描述子块的局部对比度归一化(local contrastnormalization in overlapping descriptor blocks)都对最终结果有重要作用。这种方法在最初的MIT行人数据库上表现近乎完美,所以我们引入了一个更具挑战性的包含1800个不同姿势和背景的已标注人体数据集。
1 引言
由于人体姿势和外表的多变,在图像中检测人体是一项具有挑战性的工作。首先需要的就是一个强壮的特征集,使得在不同光照和背景下都能清晰地分辨出人体。我们研究了人体检测的特征集问题,局部归一化的HOG描述子相比于现存的特征集(包括小波[17,22])有更好的表现。相比于边缘方向直方图(EdgeOrientation Histograms[4,5])、SIFT([12])、形状上下文(Shape Contexts[1]),HOG是在网格密集的大小统一的细胞单元(dense grid of uniformlyspaced cells)上进行计算,而且为了提高性能,还采用了重叠的局部对比度归一化(overlapping local contrastnormalizations)。我们用行人检测(人体是大部分可见的并且基本上是直立的)进行测试,为了保证速度和简洁性,使用线性SVM作为分类器。HOG检测器在MIT的行人数据集([17,18])上表现相当好,所以我们又引入了一个更具挑战性的包含1800个不同姿势和背景的已标注人体数据集。正在进行的工作表明,我们的特征集对于其他基于形状的目标检测也同样好。
第2节中简要介绍了在人体检测上前人的研究工作,第3节是HOG方法的总体介绍,第4节介绍了我们使用的数据集,第5-6节是HOG方法的详细介绍以及不同处理阶段的实验结果,第7节是结论和总结。
2 前人的研究工作
在目标检测方向上有大量的文献,这里只列举与人体检测有关的论文[16,17,18,20,22]。[6]是一篇综述。Papageorgiou等[18]提出了一种使用纠正哈尔小波(rectified Haarwavelet)作为特征的多项式SVM行人检测方法,以及[17]中基于子窗口的改进方法。Depoortere等给出了论文[2]中方法的一个最优化版本。Gavrila和Philomen[8]采用一种更直接的方法,提取边缘图并将其与样本进行匹配,使用chamfer距离作为评判标准,这种方法已被用在一个实时行人检测系统中[7]。Viola等[22]提出了一种高效的运动人体检测器,使用AdaBoost来训练一串渐进复杂的基于类Haar小波和时空差的区域拒绝规则。Ronfard等[19]提出了一种关节式的身体检测器,他通过将基于SVM的肢体分类器合并到动态规划框架中的一阶和二阶高斯滤波来实现,与Felzenszwalb和Huttenlocher[3],以及Ioffe和Forsyth[9]的方法相似。
Mikolajczyk等[16]提出了一种方向位置直方图和二值梯度幅值相结合的身体部位检测器,能够检测脸、头、以及身体上部或下部的前视或侧视轮廓。相比之下,我们的检测器结构更简单,使用单一检测窗口,但行人检测的效果更好。
3 算法概述
此节是HOG特征提取方法的概述,实现细节在第6节。此方法基于对稠密网格中归一化的局部方向梯度直方图的计算。相似的特征在过去十年中越来越多的被使用[4,5,12,15]。此类方法的基本观点是:局部目标的外表和形状可以被局部梯度或边缘方向的分布很好的描述,即使我们不知道对应的梯度和边缘的位置。在实际操作中,将图像分为小的细胞单元(cells),每个细胞单元计算一个梯度方向(或边缘方向)直方图。为了对光照和阴影有更好的不变性,需要对直方图进行对比度归一化,可以通过将细胞单元组成更大的块(blocks)并归一化块内的所有细胞单元来实现。我们将归一化的块描述符叫做HOG描述子。将检测窗口中的所有块的HOG描述子组合起来就形成了最终的特征向量,然后使用SVM分类器进行人体检测,见图1。
图1
图1描述了我们的特征提取和目标检测流程。检测窗口划分为重叠的块,在块中计算HOG描述子,形成的特征向量放到线性SVM中进行目标/非目标的分类。检测窗口在整个图像的所有位置和尺度上进行扫描,并在输出的用来检测目标的金字塔上进行非极大值抑制,本文主要讲特征提取的过程。
方向直方图的使用已有很多先例[13,4,5],但是直到Lowe的SIFT尺度不变特征点提取[12],才算达到成熟。SIFT类型的方法在[12,14]的程序中表现相当出色。形状上下文[1]方法研究单元和块的形状,最初只使用边缘像素个数而不是方向直方图,就已经获得不错的结果。这些稀疏特征的成功,不禁使得作为稠密特征的HOG方法的效果和简易性黯然失色,我们希望我们的研究可以改变这一情况。特别地,我们的非正式实验表明,即使现在最好的基于特征点的方法,在人体检测方面比我们方法的错检率也要高上至少1-2个数量级,主要是因为这些基于特征点的检测器不能可靠地检测人体结构。
HOG和SIFT特征有个优点,它们提取的边缘和梯度特征能很好的抓住局部形状的特点,并且由于是在局部进行提取,所以对几何和光学变化都有很好的不变性:变换或旋转对于足够小的区域影响很小。对于人体检测,在粗糙的空域采样(coarse spatial sampling)、精细的方向采样(fine orientationsampling)和较强的局部光学归一化(stronglocal photometric normalization)这些条件下,只要行人大体上能够保持直立的姿势,就容许有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。
4 数据集和研究方法
数据集
我们在两个不同的数据集上进行了测试,第一个是MIT的行人数据库[18],包含城市场景中的509个训练图和200个测试图(加上这些图片的左右翻转图),此数据集只包含正面和背面两种视角,并且人体的动作有限。我们的检测器在此数据集上表现近乎完美,所以我们制作了一个新的更具挑战性的数据集,“INRIA”,包含从各种人体照片中剪切得到1805个64*128的行人图片。这些人体大多数是站立的,但朝向各异并且背景多变,有些背景中还有人群。
研究方法
我们选择了1239个行人图片以及他们的左右翻转图作为训练的正样本,所以总共2478个正样本。从1218个没有行人的图片中随机截取12180个检测窗口大小的子图作为初始的负样本。用正负样本训练一个初始的分类器,然后用初始分类器在负样本原图上进行行人检测,检测出来的矩形区域自然都是分类错误的负样本,这就是所谓的难例(hard examples)。然后,把误报的负样本(难例)集加入到初始的负样本集中,重新训练,生成最终的分类器,最终的SVM分类器文件大约1.7GB。这种二次训练的处理过程显著提高了每个检测器的表现(在我们的默认检测器中使每个窗口的误报率(FPPW False Positives Per Window)下降了5%)。
为了量化检测器的性能,我们提出了一个在双对数坐标上的评价曲线Detection ErrorTradeoff(DET),即纵坐标是漏检率(miss rate,可以是1-recall rate(查全率、命中率)或者),横坐标是每个窗口的误报率FPPW,两个值都是越低越好。这种评价方法对于微小的概率变化都能检测到,我们经常使用在10-4FPPW时的漏检率作为结果性能的参考点。DET曲线比较易变,稍微降低漏检率就等价于在漏检率不变时大幅增加误报率FPPW。例如,对于我们的默认检测器在FPPW为10-4时,降低漏检率1%(9%相对值)相当于在漏检率不变时以1.57倍的因子减少FPPW。
5 结果综述
我们在此节比较HOG检测器与已存在的一些方法的总体表现。我们的HOG检测器基于矩形块(R-HOG)或环形极坐标块(C-HOG)以及线性或核函数SVM,与Haar小波、PCA-SIFT或形状上下文方法进行对比,这些方法的简要介绍如下:
广义Haar小波
这种方法是定向类Haar小波(oriented Haar-like wavelets)的扩展,与论文[17]中使用的方法类似(更优于)。这种特征是从9*9和12*12定向一阶和二阶45度微分滤波器以及对应的二阶微分xy滤波器改进得来。
PCA-SIFT
此描述子基于用PCA算法将梯度图投影到从训练图片中获得的基底上[11]。Ke和Sukthankar表明此描述子在基于特征点的图像匹配上要优于SIFT,但此说法有争议[14]。我们对此算法的实现使用16*16的块,以及和我们的HOG描述子同样的设定,PCA投影基底从正样本图片计算得到。
形状上下文ShapeContexts
最初的形状上下文[1]使用二值边缘投票在极坐标中统计bin,与边缘方向无关。我们用1个方向bin的HOG描述子模拟了这一方法。使用内径2个像素,外径8个像素的16个角向和3个径向间隔获得最好结果。我们测试了基于梯度和边缘投票的方法,边缘阈值进行自动选择来最优化检测结果。
结果
图3是不同的检测器在MIT和INRIA测试集上的实验结果。
图3(a)
图3(b)
结果表明,HOG检测器要显著优于小波、PCA-SIFT、形状上下文方法,在MIT数据集上相比于其他方法有非常明显性能提升,在INRIA数据集上FPPW值有至少一个数量级的下降。我们的类Haar小波检测器比MIT的小波检测器效果好,因为我们使用了2阶微分并对输出向量进行了对比度归一化。图3(a)同样显示了MIT的最优方法及其集成的检测器的结果(从[17]的实验结果中插值计算得来),然而由于我们不知道[17]中的数据集如何划分为训练集和测试集,所以无法进行精确的对比。矩形块(R-HOG)和环形块(C-HOG)检测器表现相似,C-HOG有轻微的边缘信息。原始条形(定向2阶微分)扩展R-HOG检测器的特征维数增加了一倍,同时性能也有较大提
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235428],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。