基于红外图像及定向梯度直方图的行人检测外文翻译资料

 2022-08-13 15:34:12

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


基于红外图像及定向梯度直方图的行人检测

摘要——本文提出了一种应用于红外图像的行人检测的完整方法。 首先,我们使用定向梯度直方图(HOG)对图像进行描述,并结合支持向量机(SVM)分类器评估其效率。我们将调整后的HOG描述符和分类器后应用在整个系统中,并用该系统处理立体声红外图像。 对于窗口分类,这种方法提供了较好的结果,并且对视频序列进行的初步测试证明该方法非常有前途。

  1. 引言

自过去几年以来,为了提高车辆及其环境安全,驾驶辅助系统的发展一直非常活跃。目前,该领域的主要目标是为驾驶员提提供一些有关其环境和任何潜在危险的信息。 其中一个有用的信息是检测和定位在车辆前面的行人。

行人检测问题是一个非常困难的问题,基本上已经用视觉传感器、图像处理和模式识别技术来解决。 特别是,通过图像探测行人是一个复杂的挑战,因为他们的外观和姿态是变化的。 在日光视觉的背景下,已经提出了几种基于不同图像处理技术或机器学习的方法[9]、[5]、[12]。

近年来,由于低成本红外摄像机的发展,夜视系统越来越受到人们的关注,从而增加了夜间自动检测行人的需求。近几年来,各种研究小组对红外图像检测行人的问题进行了研究。主要方法是从图像中提取线索(对称特征、形状无关特征、...)、行人模型,然后利用这些特征进行检测[8]、[1]、[6]。

本文探讨了从红外图像中检测行人的问题。我们建议的方法是基于形状的线索和一种机器学习技术学习识别行人。

最近的研究表明,从图像中的定向梯度直方图中可以得到高效、鲁棒的形状线索[7]。例如,Shashua等人 [10]开发了一套完整的单目采集行人检测系统。它的一帧分类方法是基于具有梯度直方图的图像的描述,根据分布掩码在确定的区域数上计算。 最近,Dalal和Triggs进一步发展了这种梯度直方图的思想,并在图像中获得了优异的人类检测识别率[4]。

本文介绍了一个完整的行人检测系统,应用于红外图像。首先,我们提出了一种遵循Shashua、Dalal 等人路径的单帧行人检测系统。该检测系统基于梯度直方图,结合支持向量机进行识别阶段。它已被开发用于检测以128times;64单个图像为中心的行人。本文对该系统参数进行了全面的研究,以指出其最佳设置。然后提出了一种基于注意力焦点方法的完整检测系统。这样,完整的系统就可以在大尺寸图像中检测任何规模的行人。

论文组织如下。 在第二-A节中,我们描述了单帧探测器,并详细介绍了智HOG及其参数。然后,我们提出了一种扫描完整图像和检测行人的方法。 结果部分对HOG描述符的参数设置进行了研究,并给出了整个系统的一些性能。结论和观点在最后一节中提出。

  1. 方法概述
  2. 基于定向梯度直方图的探测器

在物体识别的背景下,使用边缘先验直方图越来越流行[10]、[4]。然而定向梯度的密集和局部直方图的概念(HOG)是Dalal等人[4]引入的一种方法。这种方法的目的是用一组局部直方图来描述图像。这些直方图计数了图像局部部分梯度方向的发生。在本工作中,为了获得红外图像的完整描述符,我们根据以下步骤计算了这种局部梯度直方图:

1)计算图像的梯度,

2)建立每个单元格的方向直方图,

3)归一化每个单元块内的直方图。

以下各段详细介绍了每一个步骤。

1)梯度计算:通过用二维滤波器对图像进行滤波,得到了图像的梯度:

bull; 水平:( minus;1 0 1)

bull; 垂直:

梯度实例如图1所示。梯度可以是签名的,也可以是无签名的。这最后一种情况是合理的,因为对比的方向没有重要性。换句话说,我们将白色物体放置在黑色背景上,与黑色物体放置在白色背景上相比,将有相同的结果。在我们的例子中,我们考虑了从0到pi;的无符号梯度。

下一步是方位二值化,即计算方位直方图。 根据回收箱的数量计算每个单元的一个直方图。

  1. 细胞单元和区域描述符:这种方法的特殊性在于将图像分割成不同的细胞单元。单元格可以定义为空间区域,如以像素为单位的预定义大小的正方形。然后,我们为每个单元格计算渐变的直方图,将选票累积到每个方向的条柱中。投票可以按梯度的幅度加权,这样直方图就考虑了给定点梯度的重要性。这可以通过这样一个事实来证明,一个边缘周围的梯度方向应该比一个几乎均匀的区域中的一个点更重要。图1中间图像中给出的正方形区域的直方图示例如图2所示。 正如预期的那样,维的数量越大,直方图就越详细。 当计算出每个单元的所有直方图时,我们就可以建立连接所有单元的图像的描述符向量单个向量中的直方图。

然而,由于图像的变异性,有必要对单元直方图进行归一化处理。单元直方图是局部归一化的,根据等值单元直方图的值。这就是归一化是在一组单元之间进行的,称为区域。

然后在区域上计算一个归一化因子,并根据这个归一化因子对该区域内的所有直方图进行归一化。一旦执行了此规范化步骤,直方图可以在单个特征向量中连接。

图1:此图显示图像的梯度计算。(左)是原始图像,(中间)显示了方向

渐变,(右)根据梯度准则描绘原始图像。

图2:该图显示了梯度方向的直方图(左)4维,(中)8维,(右)16维。

对于包含给定块的所有直方图的向量V,可以采用不同的归一化方案。 归一化因子nf可以沿着这些方案得到:

bull; 无:不对单元格进行归一化,nf = 1。

bull; L1-范数:

bull; L2-范数:

ε是一个小的正则化常数。我们有时评估空梯度这是需要的。ε的值对结果没有影响。

请注意,根据每个区域是如何构建的,来自给定单元格的直方图可以参与几个区域规范化。在这种情况下,最终的特征向量包含一些冗余信息已经以不同的方式归一化。如果细胞单元和区域有重叠,情况尤其如此。

B. SVM分类器

正如我们在导言中所说的,识别系统是基于监督学习技术的。因此,我们使用了一组有行人和没有行人的训练图像示例,并用它们的HOG描述,以学习决策函数。在我们的例子中,我们使用了支持向量机分类器。

支持向量机分类器是一种二进制分类器算法,它在高维空间[2]、[11]、[3]中寻找最优超平面作为决策函数。因此,例如训练数据集{xk, yk} isin; X times; {minus;1, 1},其中xk是训练示例HOG特征向量,yk是类标签。 首先,映射函数Phi;,该方法包括在高维空间中映射xk。

然后,它寻找形式的决策函数:f(x) = w · Phi;(x) b,f(X)是最优的,因为它使最近的点Phi;(X i)与超平面之间的距离最大化。然后考虑f(x)的符号,得到x的类标签。在L1软边缘SVM分类器(错误分类的例子被线性惩罚)的情况下,这个优化问题可以通过以下方式来解决:

在kforall;约束下,ykf(X K)ge;1-xi;k。利用拉格朗日理论得到了该问题的解,可以证明向量w是:

其中alpha;lowast;i是以下二次优化问题的解:

,,

根据方程(2)和(3),支持向量机问题的求解仅取决于Gram矩阵K。

图3: 此图显示了学习集中的一些图像示例。(a)和(b)是行人,(c)和(d)是非行人,但是图像中可以检测到的潜在物体。

  1. 设定参数

在本节中,我们将介绍一种选择HOG描述符的最佳参数。 正如我们所看到的在II-A节中,HOG描述符包含许多参数关于需要处理的单元格,区域或单元格直方图。

bull; 细胞单元

——单元的大小,即像素数包含在一个单元格中。

bull; 区域

—— 大小:一个块中包含的单元数,

——变化:被块重叠的像元数,

——标准:规范化方案。

bull; 直方图

——维数,

——符号:渐变有符号或无符号,

——加权表决方法。

为了评估最有效的参数集,我们有设置完整的测试。 该测试已经实现4400张红外图像,尺寸为128times;64像素:2200张有行人和2200张无行人。 图3显示了一些用于学习的图像示例。这些图像是通过在原始图像中手动选择包含行人或任何类型对象的不同框来获得的。然后调整图像大小以符合128times;64像素的要求大小。我们测试了各种各样的参数:

bull;单元大小:4times;4、8times;8或16times;16像素,

bull; 块大小:1times;1,2times;2或4times;4像元,

bull; 块重叠:1、2,

bull; 直方图的维数:4,8或16,

图4: 该图显示了不同HOG参数集的主要结果。所有的图像已经得到了一个2类线性svm与100个元素的学习。对于HOG描述符,这里保留了默认参数:块的大小为2,维的数量为4,单元的大小为8,块的重叠为1,直方图中的添加值为标准值,没有块为L2的破坏因子。(a)、(b)和(c)显示块参数的结果。(d)和(e)显示直方图参数的参数。(f)显示单元格参数。

bull; 直方图的投票方法:权重大小或无梯度,

bull; 块的归一化因子:无,L1或L2,

为了完成测试,我们还测试了SVM分类器的不同参数:

bull; 学习集的大小:每次10、100、1000个对象,

bull; 错误分类点C的权重:0.01,1,100。

首先,我们计算给定HOG参数集的数据集。然后用分类器对其效率进行了评价。在不同的数据组合下对分类器进行10次学习和测试。应该注意的是,所有的组合都是在测试开始时固定的,对于不同的参数集,我们采取了相同的元素进行分类。

我们在这里介绍了我们的测试结果。图4中的结果突出了参数设置。 所有结果都是下列默认参数:

bull; 单元数k=2,

bull; 维数= 4,

bull; 单元大小= 8,

bull; 重叠数= 1,

bull; 直方图中的添加值 = 标准值,

bull; 块归一化因子 = L2.

图4显示了设置HOG参数的不同结果。我们可以看到,一些参数正在显著提高性能,如块因子归一化或单元大小。另一方面,一些参数不那么重要,但也参与了全部性能。

我们推导出最优参数集:

bull; 单元数k=2,

bull; 维数= 4,

bull; 单元大小= 8,

bull; 重叠数= 1,

bull; 直方图中的添加值 = 标准值,

bull; 块归一化因子 = L2.

应指出一个现象,最短的单元图形4-(F)似乎更好。事实上,对于大小等于4的情况,结果更好,但是因为这些参数对我们的机器来说太大了,所以测试无法运行。

事实上,向量的大小在128到100000之间变化,这取决于参数。有了一个小的向量,HOG描述符的计算速度很快,不需要大量的内存。恰恰相反,最大向量需要更多的时间,但检出率较高。在实践中,需要在时间计算和高检出率之间进行了折衷。

  1. 结果
  2. 窗口分类器

下面是单窗口分类器的一些结果。我们使用第三节中找到的最优HOG参数集。 我们测试学习集的3个大小:每次10、100和1000。图像总数为2200个正负例子。对于每个测试,我们使用给定的学习集,并与所有其他图像一起测试分类器。

结果平均超过10个试验与随机分裂的学习和测试数据。这种随机分裂是在参数测试之前进行的,因此结果是可行的。

图5:用1000个示例的学习集获得混淆矩阵,在4400个示例上进行测试。

图6: 此图显示了当学习集的大小变化时分类器的ROC曲线。

图6显示了用分类器获得的ROC曲线的一些结果。在我们的测试中获得的混淆矩阵的一个例子如图5所示。

当f(X)gt;theta;,theta;isin;R时,ROC曲线使我们能够比较预测函数f(X)获得的不同结果。对于高theta;值,错误预测被拒绝。 相反,当theta;较低时,分类器变得更加宽,并且出现了一些错误分类。

如图6所示,在学习集中有1000个例子,对于90%的检测率,我们对330幅计算图像有一个错误警报。获得的准确率高达99%。

如图6所示,学习集的大小是一个重要的参数。它清楚地表明,当学习集覆盖最大种类的行人时,识别更容易。但应该注意的是,即使是在学习集中的100名行人,检测率也已经很好了。关于错误分类C的权重,我们测试了一些不同的值(0.01、1和100),但这种变化对结果影响不大。

现在我们将给出完整系统的一些初步结果。 我们在包含红外立体图像的视频序列上测试该系统。请注意,序列与HOG测试期间使用的序列完全不同。

图7是结果的示例。 通常,我们考虑预测f(X)的符号来对对象x进行分类(见第二-B节)。预测值可以与边距交叉表示,如果距离超过0,这意味着这是在行人类别附近,但可以根据预测的模糊性拒绝。所以,如果我们只想保留代表行人的窗户,我们可以为预测速率设置一个阈值f(X)gt;theta; 图7清楚地显示,当阈值theta;较高时,我们有较少的虚假预测或歧义。如果我们回到ROC曲线(6),这意味着当theta;较高时,良好分类和错误分类之间的比率很高。

在图8中,我们可以看到一些错误分类的对象示例。我们的系统失败的原因可以解释如下:通常,错误分类要么是由于图像质量差,因为相机的定义只有320times;240像素,要么是由于图像中的行人位置。

图7:此图为行人检测。对于(a),阈值预测值为0;对于(b),阈值预测值1.5;对于(c),阈值预测值为1 C是预测率,D是窗口的差距。

<p

剩余内容已隐藏,支付完成后下载完整资料</p


资料编号:[236072],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。