利用HOG特征和SVM识别交通图像中的车辆标志外文翻译资料

 2022-08-12 15:14:03

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


翻译

利用HOG特征和SVM识别交通图像中的车辆标志

摘要:提出了一种基于梯度直方图和支持向量机的汽车标志识别方法。该系统是专门设计来处理由交通摄像头提供的标志低分辨率显示的图像。采用滑动窗口技术和多数投票方案相结合的方法来估计汽车制造商。该方法是通过一组3.579张汽车图像来评估的,这些图像是由27家不同的汽车制造商的两个不同的交通摄像头拍摄的。结果表明,该系统的整体识别率为92.59%,支持在实际应用中使用该系统。

关键词:汽车制造商识别,汽车标志识别,交通图像,HOG特征,支持向量机,滑动窗口,多数投票。

一:引言

在智能交通系统(ITS)应用背景下,通过标准车牌识别系统(LPR)识别汽车制造商(car make)的能力越来越重要。目前的交通监控、速度控制和门禁系统依赖于对车牌的正确检测来识别被监控车辆。然而,正如[1]中所讨论的,LPR系统的失败,大部分的识别错误并不是由于缺少识别能力,而是与环境条件的高可变性相关的分割错误。

识别错误可能是不当罚款的原因,如果这些错误直接发送给司机,而不需要人工监督LPR系统提供的结果。此外,LPR系统无法检测到伪造的车牌号码。自动车辆识别系统增加了对被监控车辆的更多细节,如车辆颜色[2]、车牌颜色[3]、车辆制造[4]、车型等,从而提高了系统的可靠性和鲁棒性。如果检测到的车牌和车辆制造商与警方或国土安全数据库中存储的数据相关,则无需人工监督,就可以自动识别出LPR错误和可疑车辆。

如[5]所述,汽车制造商识别(VMR)是一个相对有限的研究领域。文献中关于VMR的大部分方法都是基于对汽车标志的识别,标志是汽车制造的明确标志。因此,VMR问题可以简化为不同车辆制造商的所有车辆标识的多分类问题。

本文提出了一种基于汽车标志分类的汽车制造商识别系统。标志检测是辅助以前开发的车牌识别阶段。然后将滑动窗口技术应用于检测到的车牌上方定义的感兴趣区域(ROI)。研究了局部二值模式(LBP)、尺度不变特征变换(SIFT)和方向梯度直方图(HOG)作为代表汽车标志的特征。然后使用多类支持向量机(SVM)对滑动窗口提供的所有区域进行分类。最后,利用支持向量机给出的二值化结果,采用多数投票的方法对标识进行估计。与以往方法的关键区别在于,使用HOG特征与多类SVM相结合来处理标识识别,对基于纹理的描述符(如LBP)进行评估,以及使用滑动窗口技术与多数投票方法相结合。此外,我们的VMR系统经过特别设计,可以与交通图像一起使用,如图1所示。虽然其他方法可以识别具有高分辨率区域的标识,但我们的方案使用的是标识包含在低中分辨率区域中的图像。该方法以一组3.579张由两个不同的交通摄像机拍摄的车辆图像(见图2)为基础进行评估,这些图像属于27个不同的车辆制造商。

图1.用于车辆标志识别的交通图像示例

二:相关工作

VRM通常通过车辆标识识别(VLR)来实现。该过程通常涉及车牌识别(LPR)模块,然后是由粗到精的方法来识别标识ROI。最后,应用了一些标志识别方法。在[6]中,标识识别是通过模板匹配和边缘定位直方图来实现的。在[7],[5]中提出了将SIFT描述符与神经网络相结合进行标志识别的方法。

文献中可用的大多数方法都使用SIFT描述符。因此,[4]中,一组1200个标志图像对应10个不同的汽车制造商用于评估基于sift的方法。一种增强的特征匹配方法,融合了来自不同标志样本的SIFT点,准确率达97%。然而,在[4]中使用的样本并不符合自然交通图像。有特写的logo图片,可以让ROI的尺寸在100times;100像素左右(asymp;x3我们使用的尺寸)。

最后,在[8]中,使用了傅里叶形状描述符和内部结构均方误差分析,指出由于亮度、前景中的车辆特征和镜面反射的巨大变化,使得SIFT方法实际上毫无用处。

图2.用于记录流量序列的原型

图3.提出的VRM方法的总体架构

三:系统描述

所提出的VMR系统的整体架构如图3所示。可以看出,如果识别模块检测到出现在图像上的车辆的运动和车牌,则识别模块由前一阶段触发。LPR模块仅适用于检测交通图像上的运动。一旦打开标识识别模块,就会应用滑动窗口技术来选择标识所在的roi。对每个选定的感兴趣区域快速实现HOG特征,并利用多类支持向量机对这些特征向量进行分类。最终使用多数投票方案获得与汽车制造商相对应的标识,该方案对每个预先选择的roi使用SVM分类器的所有二进制输出。

拟议的多数表决制度是以多框架的方式界定,即,用于识别徽标的SVM二进制输出对应于同一车辆出现的所有帧。根据车速的不同相机捕捉2-7帧之间对应的同一辆车与充分可见其标志。这种方法在图4所示的有限状态机(FSM)中进行了图形化描述。无车状态意味着图像上既没有运动,也没有车牌。一旦我们在图像上检测到车辆牌照的第一次出现,我们就会切换到Car状态,并运行logo识别模块。我们将多类支持向量机的所有二进制输出累加起来。多数表决制只适用于车牌丢失的情况。

A.车辆标志定位

第一阶段采用帧对帧的差分方法,检测与摄像机捕获的交通序列相对应的连续帧之间的变化。因此,如果没有车辆出现在图像上,CPU负载仍然很低。一旦运动模块检测到两个相邻帧之间的巨大变化,就会执行之前由我们的研究小组开发的LPR系统,该系统同时提供文本和车牌位置。然后,做出以下假设:在大多数情况下,汽车标志将出现在一个区域,就在车牌的上方。这种假设不适用于某些类型的车辆,其中车牌不是位于中心,而是位于车辆正面区域的一侧。因此,我们采用了滑动寡妇技术,使用不同的区域大小(方形窗口),将窗口沿垂直轴滑动,将车牌分隔在两个大小相等的区域(见图5)。

值得一提的是,其他方法是专门设计的,只提供一个地区适合的车辆标志[6],[9],[10]。在我们的例子中,我们提供了一组区域,这些区域被提供给分类器。虽然这个过程增加了CPU的负载,因为HOG特征和SVM分类必须在多个区域中运行,但是我们期望得到更好的结果,因为我们不依赖于每个图像只输出一个分类。类似的方法被成功地应用于作者在行人[11]和路面[12]识别的背景下。

B.车辆标志识别

根据[4]的建议,车辆标志识别的自然方法是使用SIFT特征,因为它对透视、旋转和移动[13]具有不变性。虽然我们还没有实现[4]所建议的全部方法,但是我们很快发现SIFT特征对于不同光照条件下拍摄的低分辨率图像是不够的(见图6)。这个问题也被日常光照条件下拍摄高分辨率图像的[8]所引用。这样,我们最终放弃了SIFT特性的使用。

我们考虑使用Dalal和Triggs[14]的方法,使用方向梯度的良好归一化稠密直方图(HOG)对车辆标志的局部形状和外观进行建模。局部梯度根据方向进行宾化,根据其大小进行加权,在具有重叠块级对比度归一化的细胞空间网格内。在每个重叠的细胞块中,通过对贡献空间细胞的直方图采样得到一个特征向量。将所有重叠块的特征向量连接起来,产生最终的特征向量,并将其输入分类器。部分车辆标志的平均梯度图像如图7所示,HOG/SVM结构概述如图8所示。

我们对HOG参数的选择如下。标识本地化阶段提供的roi被调整为32times;32像素的分辨率。我们使用精细的尺度梯度((minus;1,0,1)平滑遮罩),精细的方向旋转(8个箱子)和8times;8像素单元的2times;2块。最后,应用重叠块对比度归一化(L - norm)。2连接的特征向量大小为288。

最后,我们测试了使用局部二值模式[15]来确定标识纹理在完成车辆标识分类时是否包含相关信息。结果表明,无论是单独工作还是与HOG特征相结合,系统性能都没有得到改善。因此,我们放弃了使用纹理特征如LBP来进行车辆标志识别。

我们对HOG参数的选择如下。标识本地化阶段提供的roi被调整为32times;32像素的分辨率。我们使用精细的尺度梯度((minus;1,0,1)平滑遮罩),精细的方向旋转(8个箱子)和8times;8像素单元的2times;2块。最后,应用重叠块对比度归一化(L - norm)。2连接的特征向量大小为288。

最后,我们测试了使用局部二值模式[15]来确定标识纹理在完成车辆标识分类时是否包含相关信息。结果表明,无论是单独工作还是与HOG特征相结合,系统性能都没有得到改善。因此,我们放弃了使用纹理特征如LBP来进行车辆标志识别。

图4.有限状态机(FSM)

图5.滑动窗口方法的总体视图

图6.在不同的照明条件下,对于包含相同汽车制造商标识的两个图像,SIFT性能不够

图7.一些被用在工作中的车辆标志的平滑梯度图像

四:实验

数码相机的分辨率为640times;480像素和50 mm焦距是放在两个不同的道路桥梁指向一个特定的车道的高速公路(见图2)。捕获的图像在两个不同的日子里,在不同的光线条件下(从阳光明媚到多云)。这些序列共包含了27个不同的汽车制造商的3.579幅汽车图像。通过在相机图像中手动标注相应的包围盒,得到车牌号码及其位置对应的Ground truth,以及标志及其位置。每个汽车制造商的样品数量如表一所示。27个汽车标志的示例如图9所示。

虽然这种分布有些不平衡,但它与西班牙机动车辆普查有关。可以观察到,一些制造商对应于卡车(Man和Iveco)。此外,与同一家汽车制造商对应的不同标识被单独标记(例如,菲亚特)。

A.离线分类结果

我们的HOG/SVM分类器的性能首先使用手动标记的徽标区域以离线方式进行评估。将所有样本缩放到32times;32像素,得到HOG特征。我们比较了支持向量机的两种核:线性核和RBF核。根据表I所示的数据分布,我们为每一个车辆标识选择了2/3的样本用于培训阶段,而剩下1/3的样本用于测试阶段。表II比较了为每个汽车制造商使用HOG/linSVM分类器的HOG/rbfSVM分类器。线性核和RBF核的总精度分别为95.88%和92.87%。值得注意的是,准确率为0.00%的logo对应的是训练样本数量低于12的类,这个值显然不足以进行概括。

B.单帧logo识别结果

为了评估所提出的标志识别方法,包括车辆标志定位阶段和多数投票方案,我们使用与2/3序列图像对应的样本训练一个SVM分类器,即, 2.386个logo样本保持了如表一所示的分布。其余1/3的图像以单帧方式测试系统性能。根据离线分类结果,我们直接选择了一个线性核函数。第二次实验是训练一个样本量较大的线性SVM分类器。我们通过水平镜像、几何抖动和大小变化自动创建了162个样本,每一个与训练图像对应的手动标记的logo裁剪(见图10)。因此,训练样本的数量增加到了386.532个。

报告结果见表三。对于标准情况,总体精度为81.87%;对于使用多个样本训练的系统,总体精度为88.23%。这些结果证明了用包含背景像素的样本训练分类器的好处,这些样本不符合标识,而是符合车辆结构。这可以通过以下事实来解释:在选择roi时使用的滑动窗口方法提供了具有背景信息的样本。

我们注意到一些错误与我们的汽车标志定位阶段的性质直接相关。这是阿尔法·罗密欧的例子,在离线实验中,使用线性支持向量机的准确率达到了100%。然而,当使用整个图像时,由于大部分车辆的车牌没有居中,车辆标志定位失败。一些例子如图11所示。其他错误的出现是由于车牌和标志之间的距离太大,提供了太多的roi无用信息。这是大多数卡车的情况(见图12)。

C.在线车辆标识识别结果

在最后的实验中,我们在真实的条件下对系统进行了测试。,考虑到摄像机捕捉到一辆车时,会根据车速获得2到7张有用的图像。我们应用了图3所示的结构和4所述的FSM。在这里,与汽车制造商相对应的标识是通过对分类器为某一特定车辆的所有可用图像提供的所有二进制输出应用的多数投票方案获得的。本实验使用的分类器是经过多样本训练的线性SVM。表四描述了每个汽车制造商使用相同数量的先前实验样本(1/3),包括与同一辆汽车相对应的连续帧的整体性能。请注意,在这种情况下,识别率与被检测车辆的数量有关。我们获得的最终全局性能为92.59%(375/405)。我们可以观察到用于培训和测试的样本数量与绩效之间的相关性。大多数拥有30多辆用于培训的车辆的制造商提供了大于90%的识别率。沃尔沃和丰田是例外,但它们的认知率仍在70%左右。图13描述了一些车辆识别结果。

图8.HOG/SVM架构概述

表1.每个汽车制造商的样品数量

图9.27家汽车制造商的示例

图10.为每个手动标记的徽标创建的一些额外培训示例的示例

表2.离线车辆标志识别率

表3.单帧车辆标志识别率

图11.一些例子的汽车标志定位错误的阿尔法罗密欧场合

图12.一些例子的车辆标志识别错误,在卡车由于车牌和标志之间的远距离

五:结论

提出了一种利用交通摄像头采集的图像进行车辆标志识别的HOG/SVM框架。以前的方法主要是基于SIFT特征的使用,而在车辆标识无法获得高分辨率的情况下,SIFT特征并不适用。标志的梯度分布是一种有效的方法用来描述符的标志分类,而其他功能,如基于纹理(LBP)无法提供更好的结果。滑动窗口技术提供了一组roi,将其提供给分类器。多数表决方法报告良好的结果,特别是当多个图像可用于一个特定的车辆。线性核函数的计算结果优于径向基函数。这一结果得到了线性核作为在线分类器时速度的提高。此外,通过为车辆的每个图像创建新样本来增加训练样本的数量,报告了相当大的性能改进。

该系统是在一组3.579张汽车图像上进行评估的,这些图像来自27个不同的汽车制造商,由两个不同的交

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236915],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。