基于LeNet-5的手写体阿拉伯数字识别CNN外文翻译资料

 2022-03-28 21:05:15

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


基于LeNet-5的手写体阿拉伯数字识别CNN

Ahmed El-Sawy ,Hazem EL-Bakry 和Mohamed Loey

计算机与信息学院,计算机科学系

本哈大学,本哈,埃及

{ ahmed.el sawy,mohamed.loey } @ fci.bu.edu.eg

计算机与信息科学学院,信息系统系,

曼苏拉大学,曼苏拉,埃及

helbakry5@yahoo.com

摘要:近年来,手写数字识别一直是一个重要的领域,因为它在几个领域的应用。这项工作着重于手写阿拉伯数字识别的识别部分,它面临着几个挑战,包括人类手写的无限变化和大型公共数据库。该论文提供了一种深度学习的技术,可以有效地应用于识别阿拉伯手写数字。卷积神经网络(CNN)LeNet-5训练和测试了包含60000次训练和10000次测试图像的MADBase数据库(阿拉伯手写数字图像)。结果中进行了比较,最终显示CNN的使用在不同的机器学习分类算法中得到了显着的改进。

1 介绍

识别是一个涵盖各种领域的领域,例如人脸识别,图像识别,指纹识别,字符识别,数字识别等[1]。手写数字识别系统(HDR)是一种能够识别手写数字的智能系统。手写数字识别是许多应用程序中的重要组成部分; 检查验证,办公自动化,商业,邮政地址阅读和印刷邮政编码以及数据录入应用都是很常见的例子[2]。由于写字人的手写风格不同,对手写数字的识别是一项较为困难的任务。

在过去的几年里,深度学习[3]是机器学习领域研究最多的领域,它利用多个层次对输入数据中的分层抽象建模。深度学习技术已经实现在计算机视觉状态的最先进的性能 [4,5],大数据[6.7],自动语音识别[8,9]和自然语言处理[10]。尽管如此,计算能力的增加对深度学习技术的发展作出了重大贡献,但深度学习技术试图做出更好的表示并创建模型,以从大规模数据中学习这些表示。

深度学习有许多架构,如卷积神经网络(CNN)。CNN是一个多层前馈神经网络,从输入数据中提取属性。CNN用神经网络反向传播算法训练。CNN有能力从大量的数据(图像)中学习复杂的,高维的,非线性的映射。此外,CNN对字符和数字识别的识别率很高[11]。CNN的优势在于它可以自动提取显着特征,这些特征是不变的,并且在一定程度上可以改变输入字符的形状失真[12]

特征提取是制定成功识别系统的重要关键因素。识别系统要求特征在不同标签中具有不同特征,同时在同一标签内保留不变特征。传统的手工设计的特征提取实际上是一项枯燥耗时的任务,而且无法处理原始图像,但自动提取技术可以直接从原始图像恢复和重建特征。基于CNN [11]可自动完成可训练数据集的提取特征。因此,本文的建议是使用CNN为阿拉伯手写数字识别创建深度学习识别系统。

本文的其余部分安排如下:第2节对该领域已做的一些相关工作进行了回顾。第 3 节描述了动机和建议的方法,第4节概述了数据集和结果,并且我们在第5节列出了我们的结论和未来的工作。

2 相关工作

已经提出了各种方法而且对于英文手写体数字识别的高识别率已经被报告[13-15]。牛和孙[13]提出使用卷积神经网络(CNN)和支持向量机(SVM)来识别手写数字。已经对MNIST数字数据库进行了实验。他们实现了94.40%的识别率和5.60%的拒绝率。Tissera和McDonnell [14]引入了基于极端机器学习的监督式自动编码器架构,来实现对基于MNIST数据集的拉丁手写数字进行分类。所提出的技术可以正确分类达99.19%。Ali和Ghani引入基于隐马尔可夫模型(HMM)的离散余弦变换来对手写数字进行分类。他们使用MNIST作为训练和测试数据集。HMM已被用作分类器来对手写数字数据集进行分类。该算法提供了平均97.2%的有希望的的识别结果。

近年来,许多研究人员讨论了包括阿拉伯文在内的文本识别。2011年,Melhaoui等人[16]提出了一种改进的基于Loci特征的阿拉伯数字识别方法。他们的工作基于手写和打印的数字识别。识别是用多层感知器技术和K近邻进行的。他们在那里训练数据集的算法,包含600个阿拉伯数字,200个测试图像和400个训练图像。他们能够在小型数据库上实现99%的识别率。

2008年,Mahmoud [17]提出了一种使用基于Gabor特征和支持向量机(Support Vector Machines,SVM)自动识别阿拉伯手写数字的技术。他们使用了一个由44位写字者书写的21120个样本的中型数据库。数据集包含30%的测试数据,其余70%的数据用于训练。平均识别率分别为99.85%和97.94%,分别采用3个尺度和5个方向和采用4个尺度和6个方位。

2014年,Takruri等人[18]提出了基于支持向量机,模糊C均值和独特像素的手写阿拉伯数字分类的三级分类器。他们在公共数据集上测试了新算法。数据集包含3510个图像,其中40%用于测试,60%的图像用于训练。报告的总体测试精度为88%。

2013年,Pandi Selvi和Meyyappan[1]提出了一种使用反向传播神经网络识别阿拉伯数字的方法。最后的结果表明,所提出的方法为小样本手写数据库提供了超过96%的识别准确度。

2014年,Majdi Salameh[19]提出了两种提高打字阿拉伯数字识别率的方法。第一种方法,用于计算给定形状和连接节点的末端数量。第二种方法是模式识别的模糊逻辑,从形状研究每个形状,然后将其分类到数字类别中。他们提出的技术是在某些字体上实现和测试的。实验结果使得识别率高达95%以上。

2014年,AlKhateeb等人[20]提出了一个使用动态贝叶斯网络对阿拉伯文手写数字识别进行分类的系统。他们使用基于离散余弦变换系数的特征进行分类。他们的系统在阿拉伯数字数据库(ADBase)[21]上进行了训练和测试,其中包含70,000个阿拉伯数字。他们报告的10,000个测试样本的平均识别准确率为85.26%。

3 建议的方法

3.1 动机

阿拉伯数字识别以及不同的手写风格,这对发现和开发手写识别的全新高级解决方案非常重要。深度学习系统需要大量的数据才能做出正确的决策。在[1,16-18]他们在小的手工写入图像上应用了算法,该问题是训练和测试图像中的小型数据库。在其中[21]提出了一个大的阿拉伯手写数字数据库(MADBase)与训练和测试图像。建议的图像数据库为我们提供了大量不同的手写风格。因此,使用MADBase数据库和深度学习导出了我们的方法的建议。

3.2 建议的方法

卷积神经网络(CNN)是一类深受人们大脑信息处理启发的深层模型。在大脑的视觉中,每个神经元都有一个接收区域,用于从视觉空间中的某个局部邻域捕获数据。它们专门设计用于识别具有高度方差的多维数据以改变缩放和失真。

图1. 卷积神经网络LeNet-5

CNN体系结构由一个输入层和多种隐藏层和一个输出层组成。这种隐藏层负责卷积,另一层负责局部平均,子采样和分辨率降低。第三个隐藏层充当传统的多层感知器分类器。

在这项研究中,LeNet-5 CCN架构与8层一起使用,包括一个输入层,一个输出层,两个卷积层和两个用于自动特征提取的子采样,两个完全连接的层作为多层感知隐藏层非线性分类。CNN架构如图1 所示。输入图像尺寸为32times;32,1通道(即灰度图像)。

第一卷积层C1是具有6个特征映射和每个特征映射的5times;5内核的卷积层。对于C1平面的每个神经元都有输入,它是从的在前面的(输入)层的5times;5的接受字段中获得。根据权重共享策略,这些特征地图中的所有单元使用相同的权重和偏差来生成线性位置不变滤波器,以应用于输入图像的所有区域。训练过程中将调整此层的分享权重。该层C1有6个不同的偏差和6个不同的5times;5核心,包括156个可训练参数,4704个神经元数量和122304个连接。下一层是一个子采样层S2,有着6个特征映射和每个特征映射的2times;2内核。

事实上,在对输出像素的接收区域中的输入样本进行平均后,结果被两个可训练系数相乘并相加,

表1. 我们的方法的CNN层描述

Lenet5图层

描述

第1层[输入]

特征图的数量:1

神经元的数量:0

连接数量:0个

参数数量:0

可训练参数的数量:0

第2层[C1]

特征图数量:6

神经元数量:4704

连接数量:122304

参数数量:156

可训练参数的数量:156

第3层[S2]

特征图数量:6

神经元数量:1176

连接数量:5880

参数数量:12

可训练参数的数量:12

第4层[C3]

特征图的数量:16

神经元数量:1600个

连接数量:151600

参数数量:1516

可训练数量参数:1516

第5层[S4]

特征图的数量:16

神经元数量:400

连接数量:2000

参数数量:32

可训练参数的数量:32

第6层[C5]

特征图数量:120

神经元数量:120

连接数量:48120

参数数量:48120

可训练数量参数:48120

第7层[F6]

特征图数量:10

神经元数量:10

连接数量:1210

参数数量:1210

可训练人数参数:1210

这些系数被假定为特征映射的输出像素相似,但在不同的特征映射中是不同的。该层有12个可训练参数和5880个连接。

第三层C3是具有16个特征映射和5times;5 的卷积层,每个特征映射的内核充当先前的卷积层。该层有16个特征地图,每个输出特征地图的每个神经元连接到前一层S2的一些5times;5像素区域。下一层S4是具有16个特征映射和每个特征映射的2times;2内核的子采样层。S4层有32个可训练参数和2000个连接。C5层是一个包含120个特征映射和6times;6内核的卷积层,每个特征映射具有48120个连接和可训练参数。层F6是选择84个神经元的最后完全连接的层。最后一层是10个数字类别的10个神经元的输出层。图2 所示的阿拉伯数字4的每个CNN层的输出。每个CNN图层都有许多特征图,神经元,连接,参数,可训练参数。所有这些参数在表1中都有描述。

图2. 数字“4”的图层输出

4 实验

4.1 数据集

El-sherif和Abdleazeem发布了阿拉伯手写数字数据库(ADBase)和修改后的版本(MADBase)[21]。MADBase是ADBase基准的修改版本,其格式与MNIST基准相同[22]。ADBase和MADBase由700名作家编写的70,000位数字组成。

图3. MADBase基准培训数据库的示例

每位写字者写下每个数字(从0 到 9)十次。为了确保包括不同的写作风格,数据库从不同的机构收集:工程和法律学院,医学院,开放大学(其学生的年龄跨度广泛),高中和政府机构。数据库分为两组:训练集(每类60,000数字到6,000

图4. MADBase基准测试数据库的示例

图像)和测试集(每类10,000个数字到1000个图像)。该ADBASE和MADBase是免费提供给研究人员(http://datacenter.aucegypt.edu/shazeem/)。图 3 和图 4 显示了MADBase数据库的训练和测试图像样本。

4.2 结果

在本节中,我们对CNN在训练和识别阿拉伯字符的表现进行了调查,对于设置体系结构,卷积层由映射的大小和数量,内核大小,跳过因子进行参数化。本节介绍我们尝试应用基于CNN的阿拉伯数字分类。实验在MATLAB 2016a编程环境中进行。LeNet-5网络用于在MADBase数据库上的阿拉伯数字上应用CNN。首先,为了评估CNN在阿拉伯数字上的表现,增量训练方法被用于所提出的方法。我们首先从4个类开始训练并计算精度。然后,类的数量缓慢增加。如图 5 所示,该方法的均方根

全文共9935字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14988],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。