使用GoogLeNet和定向功能图的高绩效离线手写中文字符识别外文翻译资料

 2022-06-11 21:32:10

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


使用GoogLeNet和定向功能图的高绩效离线手写中文字符识别

钟朱耀,金联文,谢泽城

华南理工大学电子信息工程学院

广州,中国

z.zhuoyao@mail.scut.edu.cn,Lianwen.jin@gmail.com

摘要——就像它在解决许多计算机视觉问题上的巨大成功一样,卷积神经网络(CNN)为手写汉字识别(HCCR)提供了一种新的端到端方法,并在近几年取得了很好的效果。然而,到目前为止,先前为HCCR提出的CNNs还不够深,也不够细。我们在本文中指出,一个更深层次的体系结构可以有利于HCCR获得更高的性能,同时可以被设计成较少的参数。我们还发现传统的特征提取方法,如Gabor或梯度功能图,对于提高CNN的性能仍然是有用的。我们设计了一个精简版的GoogLeNet[13],它是近几年为HCCR(表示为HCCR-GoogLeNet)对图像分类的最初设想,具有非常深的架构。我们使用的HCCR-GoogLeNet是19层,但只涉及了7.26亿个参数。使用2013的ICDAR竞赛中离线HCCR数据集进行了实验。结果表明,在与传统的定向特征图相结合的基础上,提出的单个和整体HCCR-GoogLeNet模型分别实现了96.35%和96.74%的新的艺术识别准确率,超越了以往的最佳结果,并具有显著的差距。

关键词——深度学习;卷积神经网络;分类器集合;手写汉字识别

I.介绍

手写汉字识别(HCCR)问题已经被广泛地研究了40多年[1]-[7]。然而,HCCR仍然是由于其大规模词汇而尚未解决的问题的挑战 (例如,gb2312 - 80标准中有6763个类,在GB18010 - 2000标准中有27533个类 ,或在GB18010-2005标准中有70244个类),书写风格的巨大多样性(设想一下中国有10亿多人),太多的相似和可能被混淆的汉字,等等。看起来好像传统的离线HCCR方法,如修改过的二次判别函数(MQDF)方法,由于近年来没有取得明显的进展,所以遇到了瓶颈。最好的传统方法,如MQDF或DLQDF[1][4][5],在离线HCCR数据库的挑战下实现了相当不错的性能,其准确率不到93%,CASIA-HWDB 1,在人类的表现上留下了巨大的空白。

随着近年来深度学习的蓬勃发展[12],卷积神经网络(CNN)为HCCR带来了新的突破,并取得了巨大的成功[6][11][12],缩小了这些方法与人类性能之间的差距。CNN于1990年由LeCun[8][9]开发,近年来被广泛研究。CNN已经使用了更深层次的架构(c.f.,[13],更好的训练技术,如“Dropout”[15]和更好的非线性激活功能,如ReLU[12],解决了大量计算机视觉挑战和模式识别问题并取得了巨大的成功。其中,Ciresan等人提出的多柱深度神经网络(MCDNN)方法[11][16],可能是第一个被报道的成功应用于大型词汇HCCR的方法。然而,MCDNN实际上是一个简单的平均投票集合模型,由几个标准的CNN组成。有趣的是,深度卷积神经网络模型在2013年的ICDAR上赢得了在线和离线手写汉字识别竞赛的胜利[5]。

富士通的团队在离线HCCR比赛中获得了第一名,准确率达到了94.77%。在2014年,吴等人将离线HCCR的性能进一步提高到96.06%,这是基于四个交替训练的松弛卷积神经网络(ATR-CNN)的投票结果[6]。

尽管使用CNN的基本模型的离线HCCR已经取得了显著的进步,但大多数现有的模型只是简单地将手写的汉字作为图像模式处理。基于此,CNN直接被作为HCCR的端到端黑盒,不使用任何重要的领域特定的信息,例如特征提取,这可能有用,但是不能通过神经网络学习。此外,以前的一些模型既不够深,也不够细。例如,MCDNN有10层深度,而当计算卷积层和pooling层时,ART-CNN只有9层深度。此外,在ICDAR的离线HCCR竞赛中,富士通团队的获胜的模型需要的字典存储大小为2.46 GB[6];因此,这种模型对移动应用程序的实际用处不大。

在本文中,基于谷歌最近开发的一种深度CNN模型,即GoogLeNet[13],我们提出了一种新的基于CNN的HCCR方法。美国有线电视新闻网的CNN模型是一种精简版的GoogLeNet,在那里我们使用的初始模块比原始模块要少。此外,我们还采用了三种定向功能图,即Gabor、渐变和HoG特性地图,以提高GoogLeNet的性能。

本文的其余部分按以下方式组织。第II部分简要介绍了CNN。第III部分介绍了我们为HCCR设计的两个CNN模型,一个名为HCCR-AlexNet的浅模型,另一个是HCCR-GoogLeNet。第IV部分介绍了域特征提取方法。实验结果会在第V部分给出,并在第VI部分中得出结论。

II.CNN的简短介绍

CNNs[8][9]是一个分级神经网络,通过与一组内核过滤器进行卷积来提取本地特征。所获得的卷积特性映射随后被取样(表示为pooling),并将其过滤到下一层。下面,我们将简要介绍CNN的算法。

给一个xil属于集合RMl*Ml代表着第i个映射和第l层,第l层的第j个内核过滤器连接到在(l-1)层的第i个映射表示为kijl属于集合RKl*Kl并建立指数映射Mj={i|在(l-1)层里的第i个映射连接到在l层的第j个映射}。所以卷积运算可以由方程(1)给出。

f(.)是ReLU非线性激活函数f(z)= max(0,z),bjl是偏差。而pooling的方程可以在方程(2)中描述。

下面(。)在xil-1映射中,是对计算机的求和抽样函数,在每个n*n区域的最大值。

软max回归是多类分类问题的有效方法。假设我们有T分类,每个类别的训练数据用(xi,yi)表示,i={ 1,hellip;,N},有xi属于集合Rd和yi属于集合R,作为特征向量和标签。

CNN的目标是尽量减少以下交叉熵损失的功能:

是模型参数,是标准化的一个因素,1(.)是一个指示函数。

利用随机梯度下降法(SGD)算法,在CNN的训练过程中,可以将J()的损失函数最小化。

III.HCCR的两个CNN设计

受到了Krizhevsky[12]和Szegedy[13]等人的出色工作的启发,他们分别在ILSVRC-2012的比赛和ILSVRC-2014的比赛中获得了第一名,我们设计了两种CNN的架构,分别命名为HCCR-AlexNet和HCCR-GoogLeNet,用于离线HCCR。HCCR-AlexNet采用相同的由8个权重层组成的体系结构;前五层包括三组卷积层和混合层,以及两个单一的卷积层;剩下的三层是完全连通的层,图1描绘了HCCR-AlexNet的细节。

我们为HCCR设计的另一个CNN模型遵循了GoogLeNet[13]的理念,后者是ILSVRC-2014年的获胜者[17]。GoogLeNet的一个显著特征是它被设计得非常深,而当只计算带有参数的层时,该网络有22层深度(如果计算pooling层也有27层)。GoogLeNet的另一个特点是,一个新的本地初始模块被引入到CNN。初始模块的基本思想是找到最优的局部构造,并在空间上重复它。该体系结构的一个主要好处是,它允许在不受控制的计算复杂性的情况下,显著增加每个阶段的单元数量。这样一来,CNN不仅可以被设计得非常深入,而且可以被有效地训练。图2显示了Out模型,它被命名为HCCR-GoogLeNet。当只计算带有参数的层时,它有14层深度(或者是19层深度,如果计算pooling层和输入层和软输出),由4个初始模块组成。每一个初始模块都由1*1的卷积,3*3的卷积,5*5的卷积,3*3的最大pooling组成。此外,1*1的卷积应用于计算机的减少,涉及较少的参数和在昂贵的3*3和5*5的卷积之前的整流激活。借助在初始模块,我们可以利用柔性卷积内核滤波器的大小来提取局部特征表示,并通过层状结构对大尺度高分辨率图像进行有效的处理。此外,由于填充策略和精确的设计,在初始化模块操作之后,我们可以获得许多相同大小的特征映射,但是通过不同的规模的卷积和合用;而且,每个初始模块后面都有一个concat-layer,将特征映射连接在一起。

IV. 将定向特性映射嵌入到HCCR-GOOGLENET

特征提取是HCCR传统技术的重要一步,它承认CNN是一个端到端神经网络,将特征提取和分类整合在一起,在训练过程中进行整合。然而,CNN被认为是HCCR的一个黑盒子,忽视了一些有效的领域特定信息,这些信息是CNN无法了解的。本文将定向特征图提取为先验知识,并将获得的特征图添加到输入层和原始图像中,以提高HCCR-GoogLeNet的性能。

Gabor变换在图像处理中得到了广泛的应用,并为离线手写汉字识别取得了很好的效果[18,21]。多方位的Gabor转换是由:

I(x,y)代表输入图像G(x,y;k,k)表示Gabor过滤器。Gabor过滤器的细节是:

, 参数k分别是波长和方向。

在我们的论文中,我们选择M=8,这是八个方向对应于0o, 22.5o, 45o, 67.5o, 90o, 112.5o, 135o, 157.5o;经过几个实证分析后,我们选择波长= 42。

在Gabor特征提取后,我们可以在信号波长的Gabor特征图中获得8个不同的朝向,并具有相同大小的每一个离线汉字图像。将8个Gabor特性映射添加到输入层和原始图像中,以构造一个N*N*9的CNN-输入-层的数组,其中N*N代表输入字符图像的大小。

另外,在HCCR[20]中,梯度特性被证明是有效的,我们也采用了梯度特征图。Sobel操作符用于在x轴和y轴的输入图像中计算每个像素的梯度值,然后将每个梯度值矢量分解为8个方向。也就是说,在梯度特征提取之后,我们获得了8个梯度特征图,这些图被放在输入层中,并带有主图像。另外,在计算机视觉[19]中,HoG被认为是一个很好的特性,所以我们也利用了HoG的特性来实现HCCR。图3说明了Gabor、梯度和HoG特征图谱的手写汉字“积”。

V.实验与分析

A.实验数据

我们使用了离线的CASIA-HWDB 1.0(DB 1.0)和CASIA-HWDB 1.1(DB 1.1)[1]数据库进行训练,以及来自2013年的ICDAR中文手写识别比赛(被称为竞争DB)[5]的测试数据集,这些测试都是由中国科学院自动化研究所收集的。DB 1.0在GB2312-80标准等级1组中包含3740个汉字,这是由420个作者贡献的;在GB1中,DB 1.1包含了3755个类,由300个作者贡献。竞争数据库包含了另外60个作者贡献的375个类。

B.预处理和实验设置

我们先对训练数据进行调整,在对几个不同尺寸的字符进行视觉检查后,我们决定将离线字符图像规范化为108x108大小的HCCR-AlexNet和112x112大小的HCCR-GoogLeNet的。在调整大小之前,为了确保快速计算,我们改变了图像的灰色值。然后,我们在HCCR-AlexNet和HCCR-GoogLeNet的114*114像素的掩码中放置了一个缩放的字符,这样就可以保持边缘信息了。我们在一个名为Caffe[22]的开放CNN平台上进行了实验,使用GTX TITAN BLACK GPU 卡。

C.HCCR-GoogLeNet与HCCR-AlexNet的比较

AlexNet[12]是美国有线电视新闻网成功获得高分辨率图像的第一个成功范例,而GoogLeNet[13]的初始模块和更深层的逐层卷积结构也大大提高了ILSVRC-2014竞赛的识别率。我们评估了我们设计的HCCR-AlexNet和HCCR-GoogLeNet之间的性能比较。在竞争DB的3755个类中,我们获得AlexNet的识别率为95.49%,而HCCR-GoogLeNet的识别率为96.26%。可以看出HCCR-GoogLeNet显著地提高了识别性能,这说明了更深层的分层架构有助于提取出更多的自然和抽象的中文字符并提高其准确性。图4显示了这两个模型在测试识别准确度方面的比较。

D.HCCR-googlenet Gabor的结果

在这些实验中,我们将Gabor,梯度,和HoG的特征图的性能进行比较,将之前的知识嵌入到HCCR-GoogLeNet的输入层,以及它们的整体性能。相应的模型分别表示为Gabor HCCR-GoogLeNet、梯度 HCCR-GoogLeNet、HoG HCCR-GoogLeNet。我们使用的集合方法是几个输入模型的平均值。我们设计了两套整体模型,一种是普通的四种H

全文共9958字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[11140],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。