英语原文共 11 页
车牌识别图像分析算法综述
Khalid ABOURA1, Rami AL-HMOUZ
沙特阿拉伯达曼 达曼大学 工商管理学院
阿卜杜勒阿齐兹国王大学,沙特阿拉伯吉达电子与计算机工程系
背景和目的:我们探讨了车牌识别(License Plate Recognition :LPR)中的问题,尤其强调了其中可用在图像分析问题的大量算法。在运用图像物体识别的管理系统中,智能体现在各种可用于车牌识别步骤中的统计算法里。我们描述了一些解决方案,从最初的阙值处理步骤到图像元素的定位和识别。文章的目的是在车牌识别的过程中提出一些概率方法,然后将这些方法结合到一个系统中。大多数车牌识别方法使用对许多不受控制的因素敏感的确定性模型,这些因素有:光照、摄像机和车辆的距离,噪声等。我们的方法本质立足于可以准确定位和识别车牌的统计算法。
设计/方法/方法:我们引入简单、廉价的方法来解决相对重要的问题,即使用概率方法。在这些方法中,我们描述了许多统计解决方案,从最初的阈值处理步骤到图像元素的定位和识别。在定位步骤中,我们使用频率板信号,来自我们通过离散傅立叶变换分析的图像的。此外,在识别字符时采用概率模型。最后,我们将展示如何结合双语车牌的结果。例如:沙特阿拉伯车牌。
结果:该算法为普遍存在的车辆样式,建筑和物业管理提供了有效性。结果显示了在所有LPR步骤中使用概率方法的优势。使用本地数据集时的平均分类率达到79.13%。
结论:当有两个信息来源,特别是有两个独立文本的车牌信息来源时,可以实现识别率的提高。
关键词:图像分析;概率建模;信号处理;车牌识别
介绍
图像处理将来自现实世界的信息转换为由矩阵表示的图像数据。对这些实值矩阵的操纵需要数学和统计解决方案,以便在图像中定位对象。光学字符识别(OCR)是使用图像处理算法识别包含在图像中的书写或印刷文本的技术。
OCR是一个充分探讨过的课题。它已在许多应用程序中被使用和商业化,包括LPR,图书馆,银行,在扫描仪中将文档转换为文本可搜索文档以及在邮局中的邮件分类。我们的一些解决方案适用于这种情况。
世界上许多人都参与了车牌识别研究。LPR系统正在被数个国家使用,英国有广泛应用的ANPR(Automatic Number Plate Recognition:自动化车牌识别系统)CCTV网络,这些成就经过多年的研究。但是,问题仍然很难完美解决。例如,在许多国家,法律仍然需求视觉上识别违法车辆的车牌号。这种依赖性问题使LPR问题成为一个活跃的研究课题。LPR使用视频捕获图像通过其车牌自动识别车辆。LPR应用于防盗,停车场管理,酒店和物业管理,交通法规执行,边境控制等。还有一些其他方法可以识别车辆,如转发器,条形码标签和射频标签。然而,车牌识别仍然是识别车辆的方式。LPR尝试自动读取通过处理由相机捕获的图像组。这个过程分为三个步骤;检测车辆,触发捕获与该车辆相关的图像并处理这些图像以识别车牌中的字符。捕获图像,将它们以数字形式传输到处理器并且协调LPR系统中的所有任务是一个可行的工程问题。图像处理中用于识别的部分是研究开始的地方。LPR有三个主要部分;从图像中定位车牌,字符分割本地化车牌区域并且识别这些字符。这些步骤由软件和相应算法自动执行。
车牌定位
车牌定位是LPR的第一步。它旨在定位车牌在有车辆的图像中。目前已经提出了各种方法在捕获的视频图像中定位车牌(Al-Hmouz和Aboura,2014)。一些现有的方法有形态学方法,边缘检测,角点检测,滑动同心窗口(Anagnostopoulos等,2006),模糊逻辑(Chang等,2006),Hough变换(Duc等,2005),神经网络(Kim等人,2000),傅里叶变换(Acosta,2004),自适应增强(AdaBoost)算法(Dlagnekov,2004)。Al-Hmouz和Aboura(2014)介绍一种车牌定位新方法,使用对车牌信号的离散傅立叶变换的统计分析。车牌信号由五个统计数据表示:信号强度,归一化最大幅度,最大幅度频率,频率中心和频率扩展。结合基于颜色的直方图阈值处理(Aboura,2008),该方法使用来自二值图像的车牌信号实现了97.27%的准确度。
车牌分割
LPR的第二个任务是从本地化的车牌区域中提取字符。最常见的方法是投影方法。首先,对图像进行阈值处理,从彩色或灰度图像缩小为黑白(背景/前景)图像。然后,投影方法在车牌区域中垂直和水平地计算前景像素的数量,以分离和提取字符。其他方法及其变体包括窄窗口扫描,局部矢量量化,比例形状分析,拉普拉斯变换,霍夫变换和马尔可夫随机场。LPR的最终任务是识别字符。一种光学字符识别算法用于识别图像中的字符。一系列方法被开发。最常见的是基于相关性的模板匹配和神经网络方法。其他方法是基于特征的,使用模式映射或基于Hausdorff距离。使用二进制分类器以及隐马尔可夫模型和概率建模。LPR中的所有三个步骤都依赖于原始图像的阈值处理或二值化。常用的方法是引用得很好的Otsu方法(Otsu,1979)。如果应用于整个图像,则Otsu方法在LPR中执行相当差。生成的二进制图像通常不会将车牌字符显示为前景。在Aboura(2008)中,讨论了该主题并引入了一种新的阈值方法。它用于本文的被描述的方法中。
车牌识别
LPR的最终任务是字符识别。字符的提取导致图像中有多个选定区域。这些区域包含了车牌的字符,并且为了识别被所谓的光学字符识别(Optical Character Recognition :OCR)算法进行处理。虽然OCR适用于LPR,但它是一个具有更广泛应用阶段的领域。OCR可追溯到1929年,并且是一种方法旨在自动翻译含有手写或打字文本的图像。有一些软件包可以翻译传真的文本页面或包含文本的图像。然而,这些OCR商业包在LPR的情况下不会产生良好的结果。因此一系列用来识别车牌字符的方法被开发。LPR中使用的最常见的OCR方法是基于相关的模板匹配和神经网络。其他方法是基于特征的,使用模式映射或基于Hausdorff距离。二元分类器也被用于隐马尔可夫模型(Aboura和Al-Hmouz,2007)。神经网络(Neural networks:NN)已成功应用于许多预测、分类和识别问题。在LPR中,它们用于定位图像中的车牌并识别车牌中的提取的字符。神经网络是由称为神经元的互连节点组成的人工网络。在其简单的形式中,LPR中使用的前馈结构,有一组输入节点,例如正在处理的图像的特征和和属性(图1)它通过节点网络,隐藏层连接到一组输出节点,即图像所属的类。
模板匹配是LPR中字符识别中最常用的另一种方法。这是一种图像分析技术,用于扫描图像模板,直到其中一部分与手头的图像匹配。模板匹配应用于字符识别有许多变体。在其最简单的形式中,使用合适的度量将二进制形式的图像(图1)与模板图像的相同大小部分进行比较。 度量可以是欧几里德距离或图像的像素与模板之间的相关度量。 例如,互相关是Horowitz(1957)和Pratt(1974)用于图像识别的统计量度,可以是模板匹配的度量。 模板匹配方法与字符识别中的其他方法相结合。 然而,它仍然是基于两个图像之间的距离最小化的方法,并且可以证明在实践中是低效的。
本文的目的是在LPR步骤中提出一些概率方法,然后将这些方法结合在系统中。大多数LPR方法使用对许多不受控制的因素敏感的确定性模型,例如照明,车辆距离摄像机的距离,处理噪声等。我们的方法的本质在于可以准确定位和识别车牌的统计算法。
本文的结构如下,首先我们展示了研究LPR系统中定位和识别阶段的概率方法。在第3节中,我们展示了所提出方法的结果。接下来是第4节中的讨论。最后,本文最后在第5节中得出结论。
概率图像分析中的研究方法
在本节中,我们将回顾一些解决引言中讨论的本地化和字符识别问题的统计和信号处理方法。我们还指出了该方法中使用的全局阈值方法。
使用离散傅里叶变换信号进行本地化
捕获的视频图像中定位车牌各种方法已经被提出。Al-Hmouz和Aboura(2014)介绍一种车牌定位新方法,使用对车牌信号的离散傅立叶变换的统计分析。车牌信号由五个统计数据表示:信号强度,归一化最大幅度,最大幅度频率,频率中心和频率扩展。这个想法是车牌号显示的频率引导他们自己通过傅里叶变换进行频谱分析。Al-Hmouz和Aboura(2014)引入了对来自图像的系统扫描的傅立叶变换数据的正式统计分析。作者使用滞后阈值(Canny,1986)而不是图像的扫描区域来获得清晰的信号。他们使用Aboura(2008)的二值化方法对整个图像进行阈值处理,从而提高了方法的速度和准确性。对于包含车牌或其部分的扫描区域,扫描区域的功率谱的行为在某些频率处显示出幅度的显著增加。这是由于牌照字符产生的信号周期性。
图1:前景像素= 1且背景像素= 0的二值图像
其中一组5000个图像用作历史数据。图像是在停车场入口处拍摄的。目视检查每个图像中是否存在汽车。对于图像信号,考虑了五个统计量并将其用于统计模型中。贝叶斯分析在图像中提供了高概率候选区域。为了在其中一个候选区域中找到车牌,使用了另一种达到的准确度的概率方法。
概率光学字符识别
LPR光学字符识别是关于输入图像属于什么类别的不确定性的问题。鉴于它是一个随机问题,如果人们坚持概率是解决不确定性的唯一连贯方法,那么人们就会期望概率答案(Lindley,1987)。尽管有一些尝试,例如概率过渡树(Eichelberger和Najarian,2006),但唯一值得注意的基于概率的研究方向是概率神经网络,例如(Anagnostopoulos,Anagnostopoulos,Loumos和Kayafas,2006)。概率神经网络(PNN)由Donald Specht(1988)开发并提供了一个使用贝叶斯分类器和Parzen估计器解决分类问题的方案。它是一类结合统计模式识别和前馈神经网络技术的神经网络。它的特点是具有非常快的训练时间,并且它产生具有贝叶斯后验概率的输出。PNN对模式识别非常有效。然而,LPR字符识别问题是一个简单的OCR问题,可以通过完整的概率方法来解决,例如我们提出的方法。为了概率地解决问题,使用概率模型从输入图像处理特征或统计。OCR模块的输入字符图像通常是二进制图像,如图1。提取字符的历史数据由两组集合组成;培训数据和验证数据。这些是使用LPR前两个步骤从车辆图像中提取的车牌字符的图像。它们是经过清洁、裁剪和标准化的二进制图像(图2)。字符逐一进行视觉检查,并分为36个可能的类别{A,B,C, ..., X,Y,Z,0,1, ...,8,9},然后将每组字符分成训练集和验证集。
提取字符的统计数据的示例是填充百分比和投影前景。填充百分比是二进制图像中前景
像素的比例。
图2:提取的字符(a),清理(b),裁剪(c)和标准化(d)
图3:36个字符的预测前景的历史方法
如果F是数字化二进制图像的矩阵,则填充百分比为Sigma;xSigma;yF(x,y)/(NxNy),其中Nx和Ny是图像的高度和宽度,以像素为单位。投影前景是前景在图像的x和y轴上的归一化投影Sigma;yF(x,y)/ Ny,x = 1,...,Nx和Sigma;xF(x,y)/ Nx,y = 1,...,Ny。这些统计数据似乎提供了区别信息,如图3所示,其中这些统计数据的平均值绘制在一个标准差内。我们使用最小化平方误差来尝试使用规范化投影前景识别字符:
Minimize(C=A,B,hellip;,X,Y,Z,0,1,hellip;,8,9)
sum;ₓ (sum;y F(x,y) / Ny - micro;x C)2 sum;y (sum; F(x,y) / N - micro;yc )2
其中micro;xc和micro;yc,C = A,B,...,X,Y,Z,0,1,...,8,9是来自训练集的历史手段。该方法未能获得良好的认可。为了补救,投影的前景随着像素到图像侧面的距离而增大,因此结合了关于前景像素的位置的信息。最小平方误差方法再次失败,表明图像的这些特征没有提供足够的信息来完全区分字符。
通常,让Z为表示角色图像的统计特征的随机变量,例如,Z可以是上面看到的填充百分比。请注意,Z不需要,通常也不是单变量。概率方法首先以Prob(Z | C),C = A,B,...,9的形式为该特征建立概率模型。对于训练集中的每个图像,计算Z的值。使用数据分析工具以及任何工程/先验知识来得到概率模型Prob(Z | C)。作为事件C的函数,即字符是C,概率模型Prob(Z | C)被称为似然函数L(C
资料编号:[5832]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。