英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
行人检测的新特点和见解
摘要
尽管在行人检测方面取得了令人瞩目的进展,但像Caltech Pedestrians或TUD-Brussels这样具有挑战性的数据集仍然不能令人满意。在这个过程中,我们发现,采自光流的运动特征在图像序列方面会产生大量的实质性的改进,即使在就低质量的视频和退化的流场而言,如果也能正确实施的话。此外,我们还引入了一个新的特征,即颜色通道上的自相似性,即使在不同的数据集上,该特征也能始终提高静态图像和视频序列的检测性能。结合HOG,这两个特征的性能要优于现今最先进的技术高达20%。最后,我们报告了两个关于探测器估值方面的见解,一般适用于基于分类器的目标检测。首先,我们表明,训练中普遍低估的细节,引导轮的数目,对不同特征/分类器的组合的相对(和绝对)的性能有很大影响。其次,我们讨论探测器评估的重要性复杂性并且显示目前的基准协议缺乏关键的细节,这可能会扭曲评估。
1.引言
行人检测由于其在汽车安全[11,8]和视觉监控[23]等实际应用中的重要性而成为近些年来研究的热点。在检测行人(即处于直立状态的人类)方面取得的令人瞩目的进展,这可能最好地说明了数据集用于基准测试的困难性越来越高。第一代[16]和第二代[3]的行人数据库已经基本饱和,并已被新的更具挑战性的数据集所取代[7,27,6]。最近这些记录现实复杂性数据的努力也表明,在可能的行人探测器和许多应用程序所需之间仍存在着差距:[6]在每个图像一个假阳性检测中,最佳方法的探测率仍低于60% ,即使是对于完全可见的人而言。
本文作出了三项主要贡献。首先,我们基于低级特征的自相似性引入了一种新的特征,特别是来自检测器窗口内不同子区域的颜色直方图。这个特征,称为CSS,捕捉空间局部色彩分布的成对统计数据,因此与特定示例的实际色彩相独立。自相似性允许表示诸如“左肩和右肩上的颜色分布通常表现出高度相似性”的属性,独立于实际的颜色分布,这可能取决于他们的衣服的人与人之间存在的差异性。添加CSS可显著改善静态图像和图像序列的最新分类性能。新的特征对于静态图像特别有用,因此对于基于内容的图像检索等应用程序也是具有价值的。它还可以结合光流对图像序列产生持续的改进。
第二个主要贡献是建立一个标准,目前用全局描述符可以实现什么样的行人检测,包括我们认为应该成为“最佳实践”的一部分的最近的一些进展,但尚未纳入系统评估体系中。在目前可用的两项最具挑战性的基准测试中,Caltech Pedestrians [6]和TUD-Brussels [27]进行评估宣布:我们的探测器达到目前为止最好的结果,比已公布的结果要优于5%到20%。
我们第三个主要贡献是两个重要的见解,不但适用于行人检测,而且更普遍地适用于基于分类器的对象检测。第一个见解涉及到以下事实:对于所有分类器,正确的迭代引导是至关重要的。根据我们的实验,自举迭代的次数比初始负训练样本的数量更重要,并且太少的迭代甚至会导致关于不同特征集的性能的不正确结论。作为第二个见解,我们指出了一些w.r.t.基准和评估程序的问题,为此我们发现现存的标准是不够的。
相关工作 自从开创性的工作[16,23]以来,已经提出了许多改进,并不断推动着性能进一步提高。对过去研究的一个重要见解是,强大的铰接模型能够适应身体姿势的变化,只有在强烈的姿势变化的情况下才会有帮助,例如在运动场景中[1]。相反,迄今为止,对于通常站立或直立行走的“正常”行人来说,最成功的模型仍然是整个搜索窗口的单一全局描述符。
有了这样的模型,可以改变以下三个主要步骤来获得性能:特征提取,分类和非最大值抑制。从原始图像数据提取的最常见特征是HOG框架的变体,即梯度直方图和(相对)光流的局部直方图[3,4,10,24,27],以及不同特点的广义Haar小波,例如,[6,23]。我们所知道的所有竞争性分类器都使用统计学习技术来学习从特征到分数的映射(表明行人存在的可能性)——通常要么是支持向量机[3,13,17,19,27]或者某种变体增强 [23,27,28,30]。学习过程中的一个重要细节是迭代引导,以改善具有困难负面例子的决策边界—参见Sec.5。
我们在Caltech Pedestrians数据集上评估新特征和特征和分类器的新组合。在这个意义上,评价可以看作是[6]的延伸:我们还讨论了光流,最近提出的HOG-LBP特征[24]和我们新的颜色自相似性。
特定于实例的颜色信息最近以隐式局部分割特征的形式使用[15],编码距离梯度W.R.T.两个局部颜色分布模型(“前景”和“背景”)。只有少数作者主张使用自相似性作为特征。最值得注意的是[20 ]在对数极坐标描述符中编码原始图像块的自相似性。它们在模板匹配任务中表现出优于梯度特征的性能。在[12 ]中,作者提出了特征时间序列上的自相似描述符用于人类行为识别,观察描述符的良好视点不变性。在另一种情况下,[21]提出了一种类似于我们的表示法,其中假设在高斯条件颜色分布下,在像素级计算颜色相似性。据我们所知,自相似性尚未被用作行人检测的一个特征。
2.数据集
对于我们的评价,我们专注于两个数据库,即Caltech Pedestrians [6]和TUD-Brussels [27],这些数据库可能是最现实和最具挑战性的数据集,而Caltech也是迄今为止最大的数据库。INRIAPerson仍然是一个受欢迎的数据集,但它不包含运动,主要由大量直立行人组成,并且几乎没有遮挡。
Caltech Pedestrians包含大量行人 - 训练集包括192k(= 192000)行人边界框和155k边界框的测试集,在350k框架上有2300个独特的行人。评估每第三十帧发生一次。由于几个原因,该数据集很困难。一方面它包含许多小行人,并具有逼真的遮挡频率。另一方面,图像质量是不足的,包括模糊以及可见的JPEG伪影(块、振铃、量化)引起幻像梯度。这些不利于梯度和流动特征的提取。对于我们的评估,我们使用在TUD-MotionPairs [27]上训练的模型(见下文),并在Caltech培训集上进行测试。该设置的一些结果是外部数据的训练,Caltech训练集测试已经与数据库在同一网站上发布,同时我们从Piotr Dollar直接获得了其他算法的结果以供比较。我们将展示使用HOG、运动和CSS的增强检测器的性能比以前所有评估的算法大幅度地提高,通常是10%或更多。
TUD-Brussels包含1326名带注释的行人,在508幅来自一辆汽车穿过市中心区的640X480像素图像对中。它包含行人在不同的尺度和从不同的视角的样子。它配备了一个训练集(TUD-MotionPairs),其中包含1776个带注释的行人,从行人区的手持摄像头拍摄的多个视角看,其中192个图像的阴影数据集部分来自同一摄像头,部分来自一辆移动的汽车。这个训练集用于除INRIAPerson(那里使用相应的训练集)之外的所有实验。
3.方法
如上所述,特征和分类器选择强烈影响任何基于滑动窗口的方法的性能。在下文中,我们描述了所采用的特征,包括我们提出的基于自相似性的新特征以及我们对流动直方图(HOF)特征的修改。本部分还介绍评估中使用的分类器和训练程序。
3.1特征
显然,在设计检测器时,特征的选择是最关键的决定,并且找到好的特征在很大程度上是一个经验过程,理论指导很少。我们评估不同特征的组合,并基于检测器窗口不同区域中颜色的相似性引入新特征,这大大提高了检测性能。我们的检测窗口中的行人区域大小为48times;96像素。由于已经被证明是有利的在人员周围包含一些背景[3],窗口本身更大(64times;128像素)。
HOG 定向梯度的直方图是目标检测的流行特征,首先在文献[3]中提出。他们使用三线性插值将本地单元格中的梯度信息收集到直方图中,并对由相邻单元格组成的重叠块进行归一化。插值、局部归一化和直方图分类使得表示对光照条件的变化和姿态的微小变化具有鲁棒性。HOG最近通过局部二元模式(LBP)得到丰富,与INRIA Person数据集[24]上的标准HOG相比,显示出明显的改善。然而,虽然我们能够在INRIA Person上重现其良好结果,但我们无法通过其他数据集上的LBP获得任何收益。当成像条件改变时,它们似乎受到影响(在我们的例子中,我们怀疑去马赛克伪影是问题),参见图2(a)和2(b)。因此,我们并未将HOG-LBP纳入进一步评估。在我们的实验中,我们用8X8像素的单元计算9个分箱的直方图。 块大小是2times;2个单元格重叠的单元格。
HOF 流动直方图最初也由Dalal等人提出[4]。我们已经证明,使用它们(例如在[4]的IMHwd方案中)与HOG互补可以对具有显着运动的实际数据集进行重大改进。在这里,我们引入HOF的低维变体IMHd2,其在2X2块内以每块4个直方图编码运动差异,同时匹配IMHwd(具有9个直方图的3X3块)的性能。图2(d)示意性地示出了新的编码方案:4个正方形分别显示一个直方图的编码。对于第一个直方图,从左下角单元的相应位置处的像素中减去与左上角单元格的第i行第j列像素相对应的光流,并将得到的向量投票到直方图中,如原始HOF方案。IMHd2提供了44%的维度降低(每个窗口2520个值而不是每个窗口4536个值),同时不会显著改变性能。我们使用[26]2的公开可用的流程实现。在这项工作中,我们表明,即使在JPEG图像上计算的流场具有较强的块伪影(并因此退化的流场)。
CSS 一些作者已经报告通过组合多种类型的低级特征获得了改进[5, 18, 27 ]。尽管如此,除了目前已建立的梯度和光流组合之外,还不清楚哪些线索最适合使用。直观地说,附加特征应该与已经使用的特征互补,以捕捉图像统计信息的不同部分。颜色信息是图像分类中流行的特征(22),但在检测中很少使用。此外,二阶图像统计,尤其是共现直方图,越来越受欢迎,将特征空间推到极高的维度[25, 18 ]。
我们建议结合这两个想法,并使用颜色的二阶统计作为附加特征。颜色本身的用途有限,因为人们(分别是他们的服装)和背景颜色的颜色都会变化,并且由于颜色恒常问题本质上没有得到解决。然而,人们确实展示了一些结构,因为颜色是局部相似的—例如(参见图1),特定人的肤色在他们的两只手臂和脸上是相似的,对于大多数人的服装也是如此。因此,我们在描述符窗口内编码颜色自相似性,即不同子区域中的颜色之间的相似性。为了利用局部直方图的鲁棒性,我们使用HOG中的三线性插值来计算8X8像素块上的D局部颜色直方图以最小化混叠。我们试验了不同的色彩空间,包括RGB,HSV,HLS和CIE Luv空间中的3x3x3直方图和归一化rg,HS和uv中的4x4直方图,丢弃强度,并仅保留色度。 其中,HSV效果最好,并在以下使用。
直方图形成了计算两两相似之间的基本特征。同样有很多可能性来定义直方图之间的相似性。我们用一些众所周知的距离函数进行了实验,包括L1范数,L2范数,X2-距离和直方图相交。我们使用直方图交集,因为它效果最好。最后,我们将L2归一化应用于相似性的(D·(D-1)/2)维向量。在D = 128块的实现中,CSS有8128个维度。与SVM分类器相结合,归一化被证明是至关重要的。注意,CSS仅通过局部比较颜色来规避颜色恒常性问题。在计算成本方面,CSS与HOF的数量级相同。
图2(c)支持我们的主张,即颜色的自相似性比直接使用底层颜色直方图作为特征更合适。HSV空间中的CSS产生显著的改善。相反,直接添加颜色直方图值甚至会损害HOG的性能。在一个理想的世界中,这种行为不应该发生,因为SVM训练会丢弃无法提供信息的特征。不幸的是,这只有在训练和测试集中的特征统计数据相同的情况下才有效。在我们的设置中 - 实际上经常在实践中 - 情况并非如此:训练数据是用不同的照相机记录的,并且在与测试数据不同的照明条件下记录下来,因此学习的颜色的权重不从一个到另一个推广。[27]也有类似的观察,他发现添加Haar特征有时可以提供帮助,但如果成像条件改变,则需要仔细标准化。请注意[5]成功地使用(原始)颜色,并且在未来的工作中,我们计划研究如何将它牢固地结合到我们的检测器中(例如,肤色原则上可能是一个明智的提示)。
注意,自相似性不限于颜色直方图,并且直接推广到检测器窗口内的任意局部子特征。我们在HOG模块上进行了自相似性实验(参见图3)以及流动直方图,但我们没有看到明显的增益。
3.2分类器
我们坚持那些在最近评估中表现最好的分类器[6,27]:支持具有线性核和直方图相交核(HIK)的支持向量机,以及MPLBoost [2]。由于AdaBoost没有产生有竞争力的结果,因此它不在我们此次选择之列。
SVM 线性支持向量机由于其良好的性能和速度而仍然是人们检测的热门选择。非线性核通常会带来一些改进,但通常对实例进行分类所需的时间与支持向量的数量成线性关系,这在实践中是难以处理的。(直方图)相交核(HIK)[14]是一个例外,它可以精确地以对数时间或近似恒定时间计算,同时始终优于线性内核。
MPLBoost Viola以及其他人[23]使用AdaBoost进行行人检测。然而,已经表明,AdaBoost在具有多个视点的挑战性数据集上表现不佳(27)。MPLBoost通过并行学习多个(强)分类器来补救一些问题。最终得分是所有分类器的最高分数,允许单个分类器专注于特征空间的特定区域而不会降低整体分类性能。
3.3培训程序
在文献中
全文共11183字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[13885],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。