基于卷积神经网络的有策略训练的车标识别系统外文翻译资料

 2022-04-21 21:27:48

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


基于卷积神经网络的有策略训练的车标识别系统

Yue Huang, Ruiwen Wu, Ye Sun, Wei Wang, and Xinghao Ding, Member, IEEE

摘要—— 由于车标是制造商最清晰的标志,因此大多数制造商都认可基于车标识别的方法,由于在图像精准分割标志,满足鲁棒性的要求同时对抗各种成像情况上的困难,标志识别任然是一个困难。在本文中,我们提出了一个可以消除精准标志检测和分割要求的卷积神经网络系统VMR,此外,为了降低核在基于CNN系统中为了能够改善现实世界所进行的训练的高计算成本,我们引入了一个有效的预培训策略,一个包含了来自10个制造商的11500个标志图像,10000个培训和1500个测试的数据集为了评估系统提出的建议的适用性而被生成和使用,得到了99.07%的平均精度,证明了具有较高的分类潜力和鲁棒性后,可怜的成像情况。

术语索引 卷积神经网络(CNNs),深度学习、预训练、车标识别(VLR)。

车牌定位(LPL)及车辆制造商识别(VMR)在智能交通系统中起到了关键作用,这些系统是用来让政府和企业统计个人汽车保有量的,此外,在车辆识别中,制造商识别也是有用的,例如,车辆被盗后车牌往往被替换,而由于车标最清楚的汽车制造商的指示器,VMR系统总是使用标志信息进行识别,因此在找寻被盗车辆中有很大用处。

2014年5月7日收到稿件;2014年9月28日修订;2014年12月3日;2014年12月22日接受。出版日期2015年2月5日;当前版本2015年7月31日的日期。这项工作受到部分国家自然科学基金的支持,授予30900328授予61172179,授予61103121,授予71103150,和国家重点技术研究与发展基金81301278资助项目2012BAI07B06;通过基础研究经费2013121023资助的中央大学和研究基金授予高等教育博士生20120121120043名。这份报纸的副编辑是P. Cerri。(通讯作者:邢浩丁)

黄、吴、孙、丁毕业于厦门大学信息科学与工程学院工程专业,现在交通部工作,王是电子工程学院信息科学与工程的学生,本文中的一个或多个数字的颜色版本可以在网上找到网址http://ieeexplore.ieee.org.Digital Object Identifier 10.1109/TITS.2014.2387069和已广泛研究的LPL相比,在研究和工业领域,很少有人提及。有助于车辆标志识别(VLR)的研究。VLR是仍然是模式识别和计算机视觉中,实时实现针对各种成像情况对精确的标志分割、鲁棒性的要求的一个挑战,根据这方面的文献,现有的基于logobased VMR系统总是由两个阶段组成,即精确车辆标志检测(VLD)和VLR。 Wang等人检测到使用边缘特征的车辆标志,然后,他们实施使用模板匹配和边缘定位直方图。 虽然他们达到了90%的准确率,但他们的方法在复杂的环境中仍然有限,例如那些阴影和光线反射的情况下,萨姆和田使用名为“Modest”的方法提出了VLR的解决方案AdaBoost“结合径向切比雪夫时刻来解决视点变化,达到92%的准确度。 然而,这个方案中由于单个图像的计算时间大于2s,不适合实时应用。Dlagnekov 和Belongie利用尺度不变特征变换(SIFT)功能来识别车辆制造商和型号后视车辆图像,但系统性能没有满足实时要求。Psyllos等人也提出了一个基于SIFT的增强匹配方案,可通过阶段一致性特征映射方法检测徽标。这个计划看起来很有前途,但人们广泛认为会受光照变化的影响,Yu 等提出了一个基于“Bag-of-Words”模型的VLR系统,该模型使用密集的SIFT提取稳定的特征,通过软量化特征分配,并用空间信息计算直方图以提高性能。车辆标志图像被表示作为视觉单词的直方图,然后通过支持向量机(SVM)进行分类。

然而,VMR之前的标志识别仍然是有限的,(1)使用手工制作的特征(例如,SIFT),不足以同时解决各种成像情况如照明不良,标志旋转,视角变化和噪音; 2)对标志检测精确性有很强的要求,因为不准确的标志检测将导致识别率大大降低。

卷积神经网络(CNN)是分层神经网络卷积层与子采样交替的网络层,这让人想起在大脑的初级视觉皮层简单和复杂的细胞,受到细胞神经网络在机器视觉问题上的成功的启发本文提出了一种基于CNN的新型VLR系统。相比于精确的标志检测和分割,这种方法粗略地分割图像的大区域,能非常有效地利用一个简单的假设来检测LPL的位置信息。更高阶的特征可以根据堆叠的可训练阶段直接提取CNN使用重复卷积,非线性映射和最大化汇集来自上一步的大分割区域。最后,标识识别被作为最后一层实现且有监督反向传播(BP)神经网络的CNN分类器。

虽然CNN对于VLR来说是一个不错的选择,但这种方法仍然存在有一些限制。在每个可训练的卷积层中阶段,卷积中使用的内核/权重是由BP神经网络训练,这非常耗时。例如,在这个提议的系统中,花费了大约15个小时从10 000个训练图像中训练所有核心。这是标识图像识别在实际应用中的局限性,在那里测试样本将成为训练样本承认;因此训练数据会经常更新。因此,一个基于CNN的标识识别系统将非常有用因为神经网络中的内核需要有限使用更新的训练样本进行训练。此外,网络培训的分类的关键取决于参数调整的专业知识和一些特别的技巧。

为了解决这个基于CNN的标识识别问题,引入了一个基于主成分分析(PCA)的预训练策略该策略可以提高以前基于CNN的系统的性能,让他们越来越高效得估计卷积层中的内核,而无需繁琐地由BP神经网络调谐从而大大减少核心训练的计算成本。改进的系统是一个更好的选择现实世界的应用,因为系统能够提高分类精度和减少训练时间同时进行。所提出的系统的贡献可以总结为以下几点:首先用于CNN标识识别模型使用基于PCA的预训练策略,从而降低培训程序的计算成本,确保建议的模型满足自训练样本经常更新的标志识别高效培训程序。其次,与其手工制作,不如提出的系统自动提取功能强大到足以提供令人满意,能分类准确与各种户外成像情况的特征。最后基于一个非常简单的假设提出了一种粗糙的分割方法。因此,准确的logo检测不再需要了。

本文的结构如下。首先是介绍基于CNN的VLR系统,第二节中描述了预训练策略。在第三节介绍了标志数据集的生成,以及给出了实验比较和鲁棒性验证。最后,第四部分对本文进行了总结。

II.基于标志的VMR系统框架

A粗切割

建议的VLD方案和传统的标志检测系统如图1所示,以协助描述使用的技术。首先从监控系统[见图1(a)]中捕捉图像和车牌,然后使用嵌入的LPL识别每个图像,模块在监控系统中。车标的左、右下角上面的坐标被识别。在LPL之后,如图1(b)中的特写图所示。然后使用传统标识识别系统仔细检测车辆徽标并移除徽标周围的背景,包括散热器和格栅[图1(c)和(d)中的蓝色盒子]。拟议的VLD方案粗略地分割了一个大的区域在没有车辆牌照的情况下包含车辆标志去除背景[图1(c)和(d)中的红色框]。

分割区域[图1(c)和(d)]中的红色框。比传统的标识识别系统要大得多。[图1(c)和(d)中的蓝色框],它只是一个近似值用来估计车辆标志的位置。在本文中,我们认为VLR应用对目前正经历着城市扩张的浪潮中国大陆是特殊的。根据中国大陆的道路交通安全政策车辆标志必须位于车牌上方,并且所有车辆的车牌大小必须相同。

针对所提出的标识识别的这种粗略分割,可以通过非常简单的方式有效地执行假设车辆标志始终位于牌照上方的某个区域。 车辆标识然后可以假定位于分段的任何部分内区域,取消了以前为了研究所设计的图像匹配或遮罩的要求。

如果VLD方案是准确的,如图1(c)所示,提出的方法和传统的标识识别方法可以达到类似的识别率。但是,如果VLD方案是不准确的,例如,标志的一部分在检测区域的外面,如图1(d)所示的例子,这将导致认识率严重下降,传统的VMR系统高度依赖于检测和分割程序。相比之下,拟议的系统只粗略地从中提取了一个更大的区域进行识别LPL数据,从而确保了标识位于检测区域内可的能性非常高。

如图1的(c)和(d)所示,易于实现的车牌上方的特定区域定义粗分割,在LPL之后,给出了车牌是mtimes;n,(mgt; n),然后是分割图像。假设位于车牌的顶部中心,尺寸btimes;b,其中b = 1 / 2m,应该强调的是我们只考虑中国大陆的十大热门车型;郊区越野车(SUV)和其他大型车辆在本文中没有考虑到。我们分析了车辆标识相对于检测到的十个车牌的位置。提出的系统中粗分割(破碎的棕色框)将封装所有车辆标志(不同颜色的箱子),另外,虽然LPL不正确,标志仍然有很大可能性存在粗糙的分割区域中如图3所示。检测区域可以是这个尺寸,也可以用更大的尺寸来定义以适应不同的种类的车辆。

B.VLR与CNN

本节将介绍VLR通过经典的CNN,图像中的标识和对象可以被分解成图案,并且图案可以进一步分解到边缘,由多个可训练的CNN组成。每个阶段堆叠在一起,被用来提取。如图4[16]所示。输入的是到70times;70像素的,包含车辆标志的图像,从粗糙的分割得到的标志,正如在前一节中中描述的,从粗糙的分割得到的标志。我们取层C1和层S2。作为解释流程图的例子,从下面一层开始,例如C3和S4,将重复同样的程序。

基于输入的带有不同内核(或权重)图像的卷积,可以生成几个特征地图层C1,其被表示为C1i,i = 1:N,其中N是内核数量为

C1i =(sigmoid(wix))其中x是大小为sxtimes;sy的原始图像,otimes;表示卷积运算wi对应于第i卷积内核和非线性映射sigmoid(x)被定义如f(x)= 1 /(1 e-x)。过滤器wi随机初始化为首先,然后用着名的BP神经网络进行训练。S2:S2中的每个特征地图通过汇集操作获得称为相应的最大池在C1层的特征映射为S2i =池(C1i)。

不重叠的矩形区域上的最大激活的大小(kx,ky)是用于输入C1i。在本文中kx = ky = 2.最大池操作创建位置在较大的本地区域保持不变,并对输入进行降采样图像由每个方向的kx和ky因子产生每个特征图在层S2中,大小为Mx / 2和My / 2。引入池层以检测最大响应生成的特征映射到不同的内核wi和to降低将提取的特征图的分辨率标志图像的多尺度特征。联合行动还提供内置的小变化和扭曲的不变性,这可能发生在各种图像监视条件下。该图层C3和图层中的卷积和最大池化过程S4与层C1和层S2相同,除了内核大小不同。卷积层和Maxpooling层可选地重复以构建多层用于特征提取的结构,其中前一个的输出图层是当前图层的输入

S4 = pool(wiotimes;(pool(wiotimes;x)))。

由于原始特征检测器在图像一部分有用那么可能在整个图像中很有用,图层中的单位被组织在所有的平面内单位共享相同的权重集。 通过共享相同的集合的权重,CNN有一个移不变的属性,可以在标识识别任务中取得优异表现一系列不同的成像条件。 详细资料多层CNN的特征的详细资料可以在[13]和[17]提取。

为了最终识别步骤,从本地功能输入图像按顺序与后续图层组合以在最终的最大化池层之后获得更高阶的特征S4。 这些更高阶的特征最终被编码成一个一维矢量,然后通过BP神经网络分类器在CNN结构的最后一层进行分类。

CNN特征检测器可以提供原始像素自动学习堆叠的低级和中级功能结构,减轻对手工设计功能的需求并提高了识别的准确性。 另外,在与传统的完全连接的神经网络相比,CNN通过设置限制强制提取本地特征隐藏单位的接受范围应该是本地的,这是基于图像具有强二维局部的事实结构。这个限制因而降低了计算规模并增加了系统的旋转和鲁棒性翻译,这是一种特别适合的技术粗分割后寻找结构。 CNN结构结合了三个建筑理念来确保一定程度的移位,缩放和失真不变性,即局部感受域,共享权重和联合作业。

C . Pretraining策略

如前一节所述,(1)中的内核wi可以通过BP神经网络进行训练;然而,这可能是非常的耗时的。例如,需要大约需要15小时去训练内核wi在以前的基于CNN的VLR系统中的10,000个训练徽标图像,这不适合现实世界需要经常更新培训数据的应用程序。这里提出的策略的动机是内核训练在之前的经典CNN中从随机初始化开始,我们希望用于更新内核培训的迭代程序可以使用获得的良好初始值加速通过预训练。此外,无监督预训练已经完成在其他使用深层结构的研究中得到改进,其中每一层都是用无监督学习进行预训练算法[20],[21]。这种方式贪婪分层无监督预训练后进行监督微调,据报提升性能深层神经网络自参数值进行判别正规化培训可以设置在适当的范围内从无监督的预训练。此外,预训练将模型初始化为参数空间中的一个点以某种方式呈现优化过程更有效,实现经验成本最小化的意义功能

CNN中的每个卷积层都被实现为如下:有M个训练标志图像和第i个特征第j个训练图像中的地图被定义为

yi j = wiotimes;xj

(4)其中otimes;表示二维卷积,Wiisin;Rlxtimes;ly是第i个内核,xjisin;Rsxtimes;sy表示第j个训练图像;该在卷积之前xj的边界是零填充的

Yi jisin;Rsxtimes;sy与xj具有相同的大小。让xvjisin;Rsxsytimes;1是一个图像xj以矢量化的形式出现,并且让P1成为第l个补丁提取矩阵,即,P1是除0以外的所有零的1xlytimes;sxsy矩阵为每一行提取一个向量化的lxtimes;ly补丁从图像xvj,xlj = Plxv对于l = 1,2,...,sxsy,jisin;Rlxlytimes;1。因此,(4)可以改写为yi j = WT i Xj(5)当Yi jisin;R1times;sxsy是yi的矢量化形式j,Wiisin;Rxxlytimes;1是wi的向量化形式,Xj = [x1j,x2j,...,xsxsyj]isin;Rlxlytimes;sxs

因此,确定一个好的初始值的问题对于{wi} N i= 1变成寻求一个好的{Wi} N的初始值的问题从那

全文共11751字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13513],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。