英语原文共 14 页
在线和离线手写汉字识别:一个全面的研究和新的基准
摘要
近年来,基于深度学习的手写汉字识别方法通过直接从原始数据中学习判别表示法,取得了最先进的识别性能。尽管如此,我们相信长期深入研究的特定领域的知识仍然有助于提高HCCR的性能。通过将传统的归一化-协同方向分解特征图(directMap)与深度卷积神经网(convNet)相结合,我们能在基于ICDAR-2013竞赛数据库上获得在线和离线HCCR的最高精度。通过这个新的构架,我们可以消除对数据扩充和模型总体的需求,而这些在其他系统中得到了应用并达到最佳效果。这使得我们的构架对于训练和测试都是有效并高效的。此外,尽管这种构架事先可以实现最好的结果和超越人类的性能,我们发现,作者自适应改变在这种情况下仍然有效。为了减少训练数据与测试数据之间的不匹配,提出了一种新的特殊适应层。适应过程可以在无监督的情况下有效地执行。通过在预训练的convNet中加入自适应层,可以适应特定写作者的新笔迹风格,进一步提高识别精度。本文对近年来基于深度学习的HCCR方法进行了综述和比较,并为在线和离线HCCR设置了新的基准。
1. 介绍
手写体汉字识别(HCCR)的研究已有50多年,其目的是为了应对大量的字符类别、相似字符之间的混淆以及个体之间不同的书写风格带来的挑战。根据输入数据的方式,手写识别可以分为在线和离线两种。在在线HCCR中,记录和分析笔尖运动轨迹,识别所表达的语言信息,而在离线HCCR中,分析字符(灰度或二进制)图像,并将其分类。离线HCCR有很多应用,如邮件分类、银行支票阅读、书籍和手写笔记抄写,而在线HCCR已广泛应用于笔输入设备、个人数字助理、智能手机、计算机辅助教育等。此外,HCCR也是一个手写文本识别的重要的必须组成部分(包括在线和离线)同时考虑分割和识别。高特征识别精度是手写体文本/字符串识别成功的关键。
为了促进HCCR的学术研究和基准,中国科学院自动化研究所模式识别国家实验室(NLPR)在CCPR-2010、ICDA -2011和ICDAR -2013举办了三场比赛。比赛的结果显示,随着时间的推移,改进和涉及许多不同的识别方法。一个压倒性的趋势是基于深度学习的方法逐渐主导竞赛。从一开始,CCPR-2010提交的所有系统都是传统的方法。在ICDA-2011年,来自瑞士的IDSIA团队提交了他们的基于卷积神经网络(convNet)的系统[11],并获得了脱机HCCR的第一名。这是第一次使用convNet实现HCCR工作。在ICDAR-2013的后期,在线和离线HCCR的获奖者都使用convNets。来自富士通研发中心的团队使用了4-convNet投票方式赢得了离线识别比赛,而来自华威大学的团队使用稀疏卷积网络赢得在线识别比赛。
深度学习方法可以直接从原始数据中学习判别表示,从而为许多模式识别问题提供端到端的解决方案。然而,研究充分的领域特定知识仍然有助于进一步提HCCR的性能。HCCR最重要的领域知识包括字符形状归一化和方向分解特征图。字符识别界提出了许多有用的形状归一化方法,如非线性归一化、双矩归一化、伪二维归一化和线密度投影插值。形状归一化可以减少类内变化,从而提高识别精度。另一个重要的领域知识是方向分解特征图。通过将梯度(对于离线图像)或局部笔画(对于在线行程轨迹)分解为不同的方向(从0°到360°),我们可以得到多个特征图,每个特征图代表一个原始梯度/笔画的方向。这是一种很强的汉字先验知识,是由书写过程中的基本方向笔画产生的。在convNet出现之前,将汉字表示为方向特征一直是最先进的方法。
为了提高HCCR的精度,而不是通过从原始数据的训练,我们代表的在线和离线手写汉字归一化-协同方向分解特征图(directMap),它可以被视为一个dtimes;ntimes;n稀疏的张量(d是量子化的方向的数量和n是地图的大小)。DirectMap包含了形状归一化和方向分解的领域特定知识,因此是HCCR的一个强大方法。此外,受最近成功使用深度卷积神经网络进行图像分类的启发,我们开发了一种用于HCCR的11层convNet。通过将directMap与convNet相结合,我们可以在icda -2013竞赛数据库上获得在线和离线HCCR的新基准。以往的工作通常采用不同的方法,分开获得在线和离线HCCR的最佳性能。然而,随着directMap convNet,我们能够在同一个构架下实现最先进的在线和离线性能HCCR。由于嵌入式领域特有的知识,我们还可以消除数据扩充和模型集成的需求,而这对于其他系统实现最佳性能至关重要。这使得我们的模型对于训练和测试过程都是有效且高效的。
个人笔迹风格的巨大差异是HCCR面临的另一个挑战。作者自适应改变被广泛用于应对这一挑战,逐渐减少独立于作者的系统与特定个体之间的不匹配。虽然基于深度学习的方法已经为HCCR创造了很高的记录,并且已经超过了人类的水平,但是我们证明了作者在这种情况下的自适应仍然是有效的。从我们早期的风格转换映射的工作中得到启发,我们在convNet中添加了一个特殊的适配层,以一种无监督的方式匹配和消除训练数据和测试数据之间的分布偏移。由于学习过程中的正则化,即使只有少量的样本可用,这种自适应也能保证性能的提高即使只有一小部分实例可获得。在我们对60位作家进行的在线和离线HCCR实验中,我们观察到,通过对convNet的适应,准确性得到了一致和显著的提高。
手写体识别界在过去的文献综述中报告了许多有用和重要的成就(从1980年到2008年)。如今,基于深度学习的方法成为新的解决手写相关问题的前沿技术。本文综述了近年来(特别是通过三次比赛)在使用深度学习方法进行手写体汉字识别(HCCR)方面的研究进展。本文的研究结果和比较可以作为未来HCCR在线和离线研究领域的新基准。
本文的其余部分组织如下:第2节回顾过去相关研究;第3节描述生成在线和离线directmap的过程;第4节展示了从传统方法到convNet的演变过程;第5节详细介绍了我们系统中使用的convNet;第6节解释了如何在convNet中添加一个适配层,用于作者自适应改变;第7节报告实验结果;第8节得出结论。
2. 相关研究
受深度学习在不同领域成功的影响,HCCR的求解方法已经从传统方法转变为卷积神经网络(convNet)。convNet首次报告成功应用于HCCR(脱机)是多列深度神经网络(MCDNN)。之后,在ICDAR-2013竞赛中,使用稀疏convNet实现在线HCCR的最佳性能。针对离线HCCR,提出了交替训练的松弛卷积神经网络。近年来,通过融合局部和全局扭曲、多监督训练、多模型投票等多种策略整合,实现了离线HCCR的最高精度。ConvNet还成功地应用于类似于HCCR的手写朝鲜语识别。虽然这些方法在很大程度上优于传统方法,但它们都是基于端到端学习的,忽略了HCCR中长期深入研究的领域特定知识。
最近,将Gabor、梯度特征图等传统的特征提取方法与GoogleNet相结合,获得了非常高的离线HCCR的精度。此外,对于在线HCCR,通过使用convNet中包括变形假想笔画图、路径签名图和方向图等多种领域知识,获得最佳性能。这些结果清楚地表明了使用领域知识进一步提高性能的优势。需要指出的是,在将深度学习应用到大多数图像分类任务中,生成失真图像来增加训练数据也是一种领域知识的利用。然而,在我们看来,最重要的领域特定知识应该是形状规范化和方向分解。directMap convNet提议,我们可以实现在线和离线的HCCR新基准,不需要模型数据增大或整体模型,这是获得最好的结果关键。
基于深度学习的方法也在其他笔迹相关问题中得到了应用,如作者身份识别、混合模型、置信分析、手写法定金额识别、文本识别等。convNet还可以与隐马尔可夫模型(HMM)相结合,用于在线手写识别。近年来,具有长短时记忆(LSTM)的递归神经网络(RNN)已成功地应用于手写体中文文本的识别,不需要对汉字进行明确分割。RNN与convNet的结合也被用于场景文本阅读。很明显,越来越多的字符识别相关问题将把他们的注意力转向深度学习方法的高性能解决方案。
作者自适应改变已广泛应用于个性化手写识别系统中。我们之前的工作提出了一种风格转换映射(style transfer mapping, STM)框架来适应不同的分类器,这已经被进一步研究。以往的作者自适应改变主要针对传统的分类器,如最近邻原型分类器和改进的二次判别函数。然而,对于作者自适应改变在深度卷积神经网络还不清楚。传统的适应深度网络的方法是重新训练一个分类层,该层以激活现有网络中的一个输入特征(例如DeCAF)。当目标区域没有标记数据时,子空间对齐(嵌入)被广泛用于最小化区域偏移。在这项工作中,通过将STM看作一个新的特殊层,我们可以在调整convNet模式使其以一种无监督的方式,利用少量的作者特殊数据。所提出的自适应层是一种简单的神经网络基本组件,因此可以很容易地与不同的网络结构进行集成。
3.方向分解特征图
形状归一化和方向分解是HCCR领域中强大的知识。形状归一化可以看作是原始字符与归一化字符在连续二维空间中的坐标映射。因此,方向分解可以在原始(规范化-协作)或归一化字符(基于标准化)上实现。归一化协同方法将原始字符的方向元素映射到没有生成归一化字符的方向图上,从而减轻了形状归一化引起的笔画方向失真的影响,提高了识别精度。我们使用归一化协作方法生成在线和离线的HCCR的directMap。
3.1离线directMap
离线HCCR数据集提供了背景像素为255的灰度图像,为了快速计算,我们首先将灰度值反转:背景为0和前景在[1255]中。之后,前景灰度为非线性归一化到指定范围以克服不同图像的灰度变化。对于离线字符的形状归一化,我们选择线密度投影插值(LDPI)方法,因为其优越的性能。对于方向分解,我们首先计算由Sobel算子对原始图像进行梯度计算,然后将梯度方向分解为相邻的两个标准。使用平行四边形规则对方向进行链码。注意,在这个过程中,没有生成标准化的字符图像,而是将原始图像的梯度元素直接映射到包含像素坐标转换的标准图像大小(例如,64times;64或32times;32)的方向特征图。
3.2在线directMap
在线HCCR数据集提供笔画坐标序列。对于在线手写字符,我们也使用标准化协作方法,即,从包含坐标变换的原始模式中提取特征,不生成标准化模式。用于在线HCCR的形状归一化方法是伪二维双矩归一化(P2DBMN),因为LDPI不适用于在线轨迹。对于方向分解,将局部行程方向(由两个相邻点构成的线段)分解为8个方向,生成每个方向的特征图。假想笔画(提笔或称为行文)也以0.5的权重添加,以增强表示。
3.3分析
为了构建紧凑表示,我们将特征图的大小设置为32,因此生成的directMap是一个8times;32times;32张量大小。图1给出了在线和离线directMaps的示例。第一列是原始字符,而0-7索引的列是八个方向图。为了更好的说明,我们还展示了八个方向图的平均值图。结果表明,平均图中的形状与原始字符相比是基于是标准化的。对于脱机字符,对梯度进行分解,平均地图给出原始图像的轮廓信息。相反对于在线字符,由于对局部笔画进行了分解,因此平均图可以很好地重构输入字符,从图中我们还可以发现,假想笔画已经被考虑进去了。线上和线下的directMaps虽然采用了相同的方向编码,但由于梯度垂直于局部笔画行程,所以线上和线下的directMaps是不同的,如右侧图1所示。
DirectMap是HCCR的一种强大表示,它利用了汉字在书写过程中基本方向笔画产生的强大先验知识。如图1所示,directMap非常稀疏。实际上,在我们的实验数据库中,directMap中92.41%(在线)和79.01%(离线)的元素为零。利用这种稀疏性,我们可以有效地存储和重用提取。由于稀疏性,使用尺寸小于原始图像(大于64times;64)的地图不会丢失形状信息。
4. 从传统的HCCR到convNet
在获得directMaps后,传统的HCCR方法对每张图采用采样策略。如图2所示,在每个采样位置,使用高斯模糊减小笔画位置变化的影响。通常情况下,每张图会有规律抽取8times;8个点,得到一个维数为512(代表8个方向)的特征向量,被广泛称为方向特征。然后对每个特征维进行y=x^0.5的Box-Cox变换,增加数据的高斯性。然后利用主成分分析(PCA)、Fisher判别分析(FDA)、判别特征提取(DFE)等线性降维方法将特征降维为低维子空间(如160)。在该子空间中,最近邻原型分类器(NPC)、修正二次判别函数(MQDF)和判别学习二次判别函数(DLQDF)被广泛用作最终分类器(见MQDF相关方法综述)。在过去的几十年中,这种框架一直是HCCR的基准。
虽然文献中没有明确说明,如图2所示,传统的HCCR体系结构与简化convNet关系密切。高斯模糊可以看作是一个预先定义的卷积掩模,而不是从数据中学习。虽然Box-Cox变换不同于神经网络中广泛使用的激活,但它是一种非线性的激活。然后是一个全连接层和一个分类层。因此,我们应该说传统的HCCR方法也遵循了深度神经网络的设计理念,尽管图2中的结构非常浅显,并且不是标准的端到端反向传播训练方式。鉴于此,将directMap与deep convNet整合起来寻找新的基准是直接且必要的。
5. 卷积神经网络
最近有研究表明,深度对卷积神经网络(convNet)的成功至关重要。考虑到我们的directMap(8times;32times;32)的大小,我们为HCCR构建了一个11层的网络。
5.1体系结构
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。