英语原文共 13 页
使用在合成图像上训练的神经网络进行稳健的车牌识别
摘要:在这项工作中,我们描述了围绕合成图像训练的卷积神经网络(CNN)设计的车牌识别(LPR)系统,以避免收集和注释训练CNN所需的数千个图像。 首先,我们提出了一个生成合成车牌图像的框架,考虑了影响真实板块方面的各种条件所需的关键变量。 然后,我们描述了一个模块化的LPR系统,围绕两个CNN设计,用于板和字符检测,享受共同的训练程序,并训练CNN并在不同国家收集的真实板图像的三个不同数据集上进行实验。 我们的综合训练系统优于在真实图像上训练的多个竞争系统,表明如果训练图像具有控制板方面的关键变量的足够差异,则合成图像在训练用于LPR的CNN时是有效的。
- 介绍
车牌识别(LPR)[1]预计将成为明天智能城市中的一个关键计算机视觉问题,在道路交叉口部署的普遍的摄像机网络可识别通过城市环境的车辆。由于安装诸如红外照明器和照相机之类的特殊基础设施的成本,利用LPR的预先存在的可见光照相机网络的可能性是非常有吸引力的。不幸的是,LPR在自然可见光下是一项艰巨的任务,因为通常不是最佳的相机放置,导致板的视角和尺度变化很大。类似地,由于板尺度,透视,照明和有限的分辨率的大的变化,需要依赖环境照明(日光或街道照明)使得LPR非常具有挑战性。此外,大规模的车辆跟踪需要将大量视频流传输到中央服务器[2],这需要安装所需的带宽并确定数据中心的大小以处理峰值时间请求,这使得LPR成为理想选择。任务可以至少部分地在摄像机上本地执行。
卷积神经网络(CNNs)已经成为有效解决许多计算机视觉问题[3]的基石,例如在赢得2012年ImageNET挑战赛后的对象检测[4,5]或字符识别[6-8] [9] ,与传统的图像处理技术相比,利润率很高[11-15]。 CNN是前馈的多层神经网络,结构化为特征提取阶段,然后是一个推理阶段[16]。特征提取阶段包括多个卷积层,每个卷积层包含许多可学习的滤波器。每个过滤器在检测到输入中的一个特定特征时激活。特征提取阶段的输出由一个或多个完全连接的层处理,每层的实际层数和可学习参数取决于具体应用。最后,网络的最后一层提供所需的网络输出,例如对象所属的类(分类问题)或图像中的对象位置(回归问题)。
虽然CNN在许多图像处理任务中表现出突破性的表现[6,10,17-19],但围绕CNN设计一个实用的LPR系统会带来一些重大的设计挑战。
首先,至关重要的是,CNN在足够数量的样本图像上进行训练,其中变量的分布有助于代表真实世界条件的类内方差。采用受控制的方式采购和注释大型训练数据集
即使考虑数据增强技术,变量的分配也是一项艰巨的任务。
其次,最近的CNN架构实现了最先进的性能依赖于具有数亿可学习参数的深度拓扑。通过智能相机移动LPR处理(至少部分)的要求需要适用于具有有限存储器和计算资源的智能相机的受限复杂度网络架构。
目前的工作以几种方式建立并大大扩展了[20]的初步结果。
首先,我们提出了一个专门用于生成车牌合成图像的框架。之前提出了综合训练,例如,用于姿势估计[21],文本定位[22]或视差和光流估计[23]。在[22]中,建议通过约束一些合成文本的姿势来生成逼真的图像,以匹配自然背景的几何形状。然而,匹配背景几何形状限制了样本能够解释使LPR如此具有挑战性的大文本变异性的能力。此外,逼真的合成图像并不能保证图像捕获驱动板块方面的关键变量,也不能保证它们在训练CNN时有效。相反,我们的框架生成的图像虽然不一定是现实的,但却能解释控制板块方面的关键变量,从而有效地实现了培训CNN进行板识别的目标。我们通过对负责实际板图像的大的类内可变性的关键变量进行建模并允许其任意的,不受约束的组合来实现这样的目标。我们的合成训练方法允许我们的LPR系统通过简单地调整合成模板和字体来处理不同的板类型(例如,国家,形状)。最近,已经提出使用诸如Generative Adversarial Nets [24]的深度生成模型来产生准现实的合成训练数据。然而,最近的证据[25]表明,逼真的训练图像可能不是成功训练判别网络的关键。此外,生成网络也需要在图像上进行训练,因此它并不能完全解决我们试图解决的训练样本的问题。因此,我们并不认为合成训练是基于自然图像的训练的更好选择,而是我们指出它是在应对缺乏自然注释样本图像来训练判别模型方面的有效解决方案[23]。
其次,我们提出了一种可重复用于板和字符检测的CNN架构,适用于有限复杂度的设备。关于第一点,我们定义了网络设计原则,支持通用联合对象定位和分类(对象检测,如下)。然后,通过调整网络超参数,我们将其标注为板或字符检测器,具有共享训练过程和成本函数定义的明显优势。关于第二点,虽然我们的系统并非旨在满足硅实现的严格限制[26],但其资源方面的设计将内存占用减少到可以在真实嵌入式平台上部署的程度,因为我们实验证明。
第三,我们提出了一种模块化LPR设计,其中一个CNN用于板检测,一个用于字符检测,两者都在合成图像上进行训练。模块化设计允许在智能相机设备上部分或完全满足真实LPR系统的不同要求,例如印版分割和字符读取。最后,通过板和字符细化分类,我们进一步提高了系统的性能,同时最小化了系统和设计的复杂性。
为了证明我们的方法和训练有素的网络的有效性,我们在现实世界的伊朗,台湾和中国板块图像的三个不同的测试集上进行实验。也就是说,在我们所有的实验中,我们在合成图像上训练我们的系统,但我们在现实世界,自然,图像上进行测试。在具有挑战性的透视和照明条件下捕获这些图像,这使得它们成为具有挑战性的基准。意大利板块上的实验表明,与[20]中提出的初步结果相比,性能大大提高。台湾和中国板块的新实验证实了多个数据集的一致性能,证明了我们的LPR系统在读取不同板类型时实现最先进性能的能力,尽管我们的网络参数数量相对较少。此外,我们在嵌入式平台和强大的桌面GPU上对我们的网络进行基准测试,显示我们的CNN适用于嵌入式平台,并在服务器平台上实现近乎实时的性能。
本文的其余部分安排如下。 第2节讨论了相关文献。 第3节描述了我们为培训目的生成合成车牌图像的框架。 第4节描述了用于联合对象定位和分类(检测)的CNN及其针对板和特征检测的定制。 在第5节中,我们描述了围绕CNN设计的完整LPR系统的架构,以及第6节中的相关网络训练和参数调整程序。 第7节提供了我们对不同图像集的架构的实验评估,并将其与现有技术进行了比较。 最后,我们的研究结论在第8节中介绍。
2.相关工作
在过去几年中,已经提出了许多基于不同架构和技术的设计来解决LPR问题。
Yu等人。 [27]专注于在光照,背景和视角急剧变化的情况下检测车牌的问题。他们提出了一种基于小波变换和经验模式分解的方法,该方法在板定位方面表现出良好的准确性,尽管它们没有提出完整的LPR流水线。
郭等人。 [28]通过经典的图像处理技术和参数自适应方法解决了板块分割和字符分割的问题。然而,这样的工作并没有解决字符识别问题,这是完整LPR系统的关键任务。
Giannoukos等。 [29]提出了一种快速方法来减少全高清,高分辨率图像中的印版检测时间。即,他们提出了一种能够在CPU上以小于50ms的速度处理QVGA图像的上下文扫描方法。然而,现代GPU加速的CNN能够在相当的时间内处理更大的图像。
Al-Ghaili等。 [30]通过识别利用对比度的垂直边缘,抑制不想要的线,以及将板定位在二值化图像中,提出了一种快速的牌照方法。虽然这种方法在板检测中具有非常低的复杂性,但它不能提供完整LPR系统的解决方案
Hsu等人。 [31]提出了一个完整的三阶段LPR架构,围绕用于板检测的边缘聚类和用于字符分割的最大稳定极端区域而设计。他们认为,不同类型的LPR应用(例如,访问控制,道路巡逻等)在相对于表征典型应用输入数据的变量(平移,倾斜等)的值范围方面不同。他们表明,考虑应用程序变量范围的临时解决方案优于其他与特定应用程序参数无关的解决方案。显然,这种解决方案的主要缺点是每个考虑的任务需要一个不同的解决方案。
李等人。 [32]采用不同网络的组合,从略微不同的角度解决LPR问题。首先,他们使用在[33]和[34]创建的数据集上训练的CNN来检测输入图像中的字符。通过训练的第二CNN将候选图像区域分类为板或非板
T.Bjouml;rklund,A。Fiandrotti和M. Annarumma等人。 / Pattern Recognition 93(2019)134-146 135
136T.Bjouml;rklund,A。Fiandrotti和M. Annarumma等人。 / Pattern Recognition 93(2019)134-146
在AOLP数据集[31]上通过交叉验证来丢弃虚假的正面。最后,使用在相同字符集上训练的长期短期记忆复发网络将字符标记为文本序列,从而避免了其他关键的字符分割步骤。尽管使用了三种不同的网络,但这种方法在[31]中使用的相同数据集上显示出改进的结果。
袁等人。 [35]提出了一种低复杂度的板块检测架构。首先,线密度滤波器定位候选牌照区域。接下来,牌照分类器在颜色突出的基础上丢弃假阳性区域。虽然所提出的方法实现了显着的回忆,但由于对假阳性的不良影响,精确度可能会受到影响。
焦等人[36]通过可调算法,解决了不同国家不同外观(板面,字符格式等)板块的问题。我们指出,我们的综合训练LPR系统能够简单地通过改变用于生成训练图像的模板来应对不同的板块方面。
Gou等人。 [37]提出了一种基于极值区域和受限玻尔兹曼机器的LPR算法。首先,使用边缘检测和图像过滤执行车牌的粗略检测。然后使用Extremal区域提取字符区域,极值区域又用于细化板区域。最后,使用混合辨别限制Boltzmann机器识别字符,该机器训练在从旋转和噪声增强的真实照片中提取的字符样本上。然而,板块局部化仅涉及特定尺寸和纵横比的板块,并且未被证明对透视变化具有鲁棒性。
布兰等人。 [38]建议使用弱的和稀疏的分类器,然后使用强大的CNN来分类可读的牌照。对于字符识别,它们使用扫描SVM分类器和隐藏马尔可夫模型来避免分割步骤以推断它们的位置。字符分类器使用已经工作的分类器标记的实际样本或合成数据进行训练。但是,实验表明,当网络在合成数据上进行训练时,性能会下降。
梅耶等人。 [23]探讨了在差异和光流估计任务中为深度学习提供良好的合成训练数据的问题。 他们的发现是,虽然样本多样性和相机知识有所帮助,但图像真实性被高估了,这一结果也得到了我们在被认可的车牌识别案例中的实验结果的支持。
3.生成合成训练图像
在本节中,我们描述了一个生成合成智能板图像的过程,该过程适合于训练用于车牌检测的监督学习算法,例如我们将在下一节介绍的CNN架构。我们记得,我们打算通过综合训练解决的问题是收集大量足以训练CNN(数千张图像的数量级)的真实车牌图像以及用手注释它们相关的成本。 (对于每个图像,注释板角位置,字符和字符位置)。出于这个原因,我们建议使用合成的,计算机生成的牌照图像代替真实图像来训练我们的CNN。借助合成训练图像的优点是:i)可以生成任意大量的图像; ii)所有需要的注释都是隐含的,从而无需手动操作 -
符号。详细地,本节重点介绍生成合成车牌图像的过程;用于提取用于实际培训我们的CNN用于车牌和字符检测的精确训练样本的过程将在后面的第6节中详细说明,并与训练程序一起详细说明。
合成训练图像处理生成正或负图像,并组织成一系列步骤。每个步骤模拟至少一个板几何(大小,透视)或环境(光条件,采集噪声)变量,这些变量负责现实世界许可板图像的高级内方差,这是最终的原因为什么LPR在自然界中如此具有挑战性。我们的目标不是模拟真实世界图像中的变量分布,这些变量分布通常是未知的,并且可能根据场景而有很大差异。相反,我们的目标是生成大量具有挑战性的培训图像,这些图像适合培训网络,以便在广泛的不同场景中进行广泛的推广。因此,对于每个图像,我们独立地绘制驱动板外观的变量来自均匀分布。最近的研究[23]也支持我们的假设,即照片真实性对于训练判别算法并不是绝对必要的,我们也将在第7节中进行实验验证。
3.1。正面图像生成
正图像在一些随机背景上包含合成板,该板完全包含在图像内。负面图像使得它们在相同的随机背景上包含随机文本。请记住,我们不打算生成逼真的图像,而是我们的目标是生成足够具有足够变异性的图像集,以使受过训练的分类器也能够覆盖所有自然图像的变化。
2D模板生成。生成正像的过程从合成空白板模板开始,如图1(左)所示。该模板反映了意大利实际车牌的实际纵横比和配色方案。接下来,反映实际板编号方案的随机字符序列叠加在模板上,反映实际板的实际文本布局(图1)(中心)。
图1.(左)空白模板。 (中心)具有随机许可证的模板。 (右)字体厚度改变。
2D模板更改。对于每个正像,字体厚度随机改变以反映实际板照片中观察到的实际变化,如图1(右)所示。此外,每个字符沿水平轴和垂直轴随机移动几个像素,以改善板的可变性。接下来,随机改变板材特性以反映照明角度和基色的变化(图2左)。在字符边缘周围添加相干反射和阴影,以解释实际印版中的字符可能被压印的事实,图2(中心)。然后,将可变强度的部分阴影随机地添加到顶部或侧面以解决从车身产生的部分遮挡。所得合成板的一个例子如图2(右)所示。
图2.(左)随机颜色变化。 (中心)字符阴影。 (右)由于遮挡而产生的部分阴影。
[-80,80]度范围和[-40,40]度范围内的倾斜,而旋转限制在[-5,5]度范围内(由于安装限制和相机的预期)水平放置,否则应该增加此范围)。然后使用透视投影将板模板投射回二维表面,使得板宽度范围在75-200像素间隔中,应用旋转,平移和倾斜后的投影板的示例显示在图3。
图3.(左
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。