基于核识别局部对齐的相似手写汉字识别外文翻译资料
2022-08-09 11:25:37
英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于核识别局部对齐的相似手写汉字识别
摘要
提取相似的手写汉字识别(SHCCR)的区别信息是至关重要的,它对于提高手写汉字识别的性能起着关键作用。本文首先向SHCCR介绍了一种新的基于流形学习的子空间学习算法,即判别性位置对齐(DLA)之后,我们提出了DLA的内核版本,即内核判别性局部对齐(KDLA),并仔细证明学习KDLA等同于进行DLA之后进行内核主成分分析(KPC)。可以利用这一理论研究来更好地理解KDLA,即KDLA跨越的子空间本质上是KPCA的主要组件上DLA跨越的子空间。实验结果表明,在识别精度方面,DLA和KDLA比代表性的歧视性信息提取算法更有效。
关键字:类似的手写汉字识别,静态候选者生成,降维,流形学习,补丁对齐框架,区分性区域对齐。
- 介绍
近年来,手写汉字识别(HCCR)在研究和实际应用中都取得很大的进步。但是,不受约束的在线HCCR仍然是一个未能解决的问题,因为考虑到手写风格和种类的多样性,要达到较高的识别率仍然是一个挑战。在受限的HCCR中,识别率通常可以达到98.5%以上,但在不受限制的在线HCCR中,识别率降至到了92.39%。
已经提出了许多有效的方法来提高草书在线或离线SHCCR中的识别率。提出了一种基于线性判别分析(LDA)的化合物距离方法以提高识别率。提出了关键区域分析,可以通过强调关键区域来区分一个字符与另一个相似字符。以上所有方法都涉及构造全局线性变换以提高识别精度。
实际上,不受限制的在线ICCR性能下降的主要原因之一是相似的汉字通常具有相似的结构,并且在特定区域仅存在或不存在中风。图1显示一些来自CASIA-OLIFD1数据库的相似的草书样本,在许多HCCR系统中,所有类别通常只有一个分类器。这和系统易于构建,但是无法区分非常相似的汉字。
因此,许多汉字识别引擎采用分层分类器,来克服单个分类器的不足。当第一级识别了新导入的字符时,通常可以通过置信度得分对识别结果进行重新排序。二级分类器旨在区分最高置信度得分结果。许多方法已被提出来识别小部分的汉字。这些方法旨在有效地提取最简单情况(即一些相似的汉字类)的判别信息。
尽管可以捉高识别率,但是仍有进一步提高的空间。首先,在成对分类器中使用成对分类器对候选字符进行重新排序是一种昂贵的方法,因为对于C类分类问题,分类器的数量为C1=2。通常不容易接受这种方法时间成本和空间成本。其次,在类似的手写汉字识别(SHCCR)中,区别性信息提取非常重要。因此,我们应用DLA(区分性区域对齐)流形学习和静态候选者生成技术以解决这些问题。图2显示了建议的识别系统的示意图。在第一级分类中,使用静态候选者生成技术生成每个类别的相似中文侯选集。然后,当通过第一等级分类给出第一候选者时,系统根据携带第二等级分类的第一侯选者检索对应的相似中文候选集。DLA或内核DLA(本文提出的KDLA)投影矩阵被应用到所选的相似字符集中,考虑到通过学习相似候选集中更有效的判别特征来提高识别精度。
线性判别分析(LDA)是文献中的提取方法中的一个广泛使用的类似汉字鉴别功能。然而,LDA具有以下缺点,首先,它忽略了样本的局部结构,这使得它无法发现隐藏在高维空间中的非线性结构。其次,LDA面临样本量小(SSS)问题,我们需要大量样本进行模型训练。
基于流形学习的降维算法是用于发现嵌入高维环境空间的样本的固有结构的强大工具,近年来引起了广泛关注。因此,为了克服LDA的上面的问题以提高性能,我们为SHCCR引入了一种流行的监督流形学习方法,称为判别局部性对齐(DLA),DLA是在补丁程序对齐框架(PAF)的框架下开发的PAP包括大多数现有的基于流形学习的降维算法作为特殊情况,并表明这些算法可以分为两个步骤:补丁优化和全局对齐。基于PAF,我们可以快速理解不同算法的共同点和本质区别,并开发基于流形学习的新的降维算法。DLA是用于分类的PAF的特殊实现。它包含两个阶段。在第一阶段,DLA通过集成两个标准相似祥本之间的距离尽可能小,而不相似的样本之间的距离尽可能大,从而将区分性信息保存在本地补丁中。在第二阶段,DLA通过对齐操作集成S所有加权部分优化以形成全局子空间结构。
作为基于多种学习的方法,与LDA相比,DLA对HCCR具有更多的吸引人的特性。首先,DLA专注于每个训练样本的本地区分结构,并且它在样本级别捷获了区分信息,因此它比LDA更强大。其次,DLA在小样本条件下具有强大的分类性能。第三,它不需要计算矩阵的逆,因此它不面临矩阵奇点问题。此外,我们的经验表明,通过LDA与DLA相比,DLA可以获得较小尺寸的投影矩阵,通过DLA获得的SHCCR的识别率更高。这意味着DLA能够以较低的计算和存储成本来保持较高的识别率,这对实际应用很有吸引力。
但是DLA是线性算法,无法捕获样本的非线性。受内核方法启发成功地发现内在的非线性结构,我们将DLA推广到内核特征空间作为内核判别性局部对齐(KDLA)。根据所谓的“内核技巧”,我们将原始的低维欧几里德空间映射到高维希尔伯特空间,其中不同类别的样本几乎都可以线性分离。KDLA在高维希尔伯特空间中获得了一组最佳判别基向量。因比,KDLA的性能要比DLA好得多。我们证明学习KDLA等同于在内核主成分分析(PCA)的主成分所跨越的空间中学习DLA。这有助于我们了解KDLA和DLA之间的区别。在本文中,我们对十个相似的手写汉字的困难识别集合进行了实验,以比较DLA和KDLA与流行的基线算法。实验结果证明了DLA和KDLA的有效性。
本文的其余部分安排如下:第二部分介绍静态候选者生成技术。第三部分引入了DLA提取SHCCR的判别特征,然后详细地介绍了所提出的KDLA算法的基本公式和理论分析,在本节中介绍实验和实证分析。第四部分是实验,第五部分是全文总结。
- 静态侯选字符集
众所周知,大多数汉字识别引擎要有一个分类器才能识别新导入的字符。尽管这个方法易于实施,但无法区分非常相似的汉字。在本文中,我们介绍了静态候选生成(SCG)以提高相似字符集识别的性能。
2.1.静态候选生成(SCG)
实现SCG的方法有两种,一种是基于距离的相似汉字集生成,另一种是基于频率的相似汉字集生成。
基于距离的SCG假设相似字符特征模板的距离在功能空间中彼此接近。给定一个汉字及其特征模板Ci,我们通过选择k-1个最接近的特征来生成k-1个Ci的侯选的模板,即Ci1,Ci2hellip;hellip;C(i-1)静态可以关于Ci设置的对象是Ci1,Ci2hellip;hellip;C(i-1)。因此技术通常仅利用样本均值来计算距离,因此效果不佳。
基于频率的SCG方法首先根据分类器的置信度分数生成中文字符Ci的某些样本的原始k个候选对象。参数k的设置是根据选择与给定识别侯选相对应的正确SCG集合的预期命中率。如果期望的命中率很高,我们需要将k调整为较大的数字,这将导致更大的存储成本。在我们的系统中,我们设置k=10的命中率约为99%。之后,我们使用分类器来识别除Ci之外的所有其他类别的样本,并计算被错误识别为字符Ci的样本的频率。最后,根据错误识别频率,可以得到几个相似的Ci候选集。
2.2.相似人物收藏
通过使用基于频率的SCG方法处理相似的字符集。步骤如下:(1)为每个汉字生成原始的静态候选类集;(2)根据基准数据选择十个选定类别的难以识别的样本;(3)在我们的实验中,使用与十个生成的静态候选集对应的字符样本作为相似字符集。
3.区分性信息提取
在大多数文献报道的SHCCR解决方案中,使用LDA提取判别信息。但是,我们有训练样本的数量不足这个问题,更不用说LDA忽略了样本分布的局部几何形状。因此,我们引入了有监督的流形学习算法DLA,以提高SHCCR中区别信息提取的性能。之后,我们提出了一种叫做内核判别性局部对齐(KDLA)的方法,以实现后续分类的更好性能。特别地,KDLA受益于发现样本分布的非线性。我们考虑歧视性信息提取的一般问题。我们以高维度表示一组训练样本局部空间(数码管)。区分信息提取的目的是找到线性投影矩阵U,以将样本从高维空间R投影到相应的低维子空间,其中dlt;D。
3.1.线性判别分析
LDA是用于区分信息的经典算法。它旨在通过最大化类间散布矩阵S的轨迹并同时最小化类内散布矩阵S的轨迹来找到子空间。LDA的目标函数由下式给出:
其中Nj是第j类的训练样本量,C是类数,m是第j类的样本均值,m是所有样本的均值。通过最大化方程式获得投影矩阵U(1).如果Sw不是奇异值,则由对应于S-1Sb的d个最大特征值的前导d个特征向量给出Uis。
3.2.区分性区域对齐
与LDA不同,DLA旨在将区分性信息保留在本地。特别是,DLA对每个训练样本进行“部分优化”,以便在低维子空间中,样本与其类内邻居之间的平均距离将尽可能小,而样本与其样本内邻居之间的平均距离将尽可能小阶级之间的邻居将尽可能大。然后DLA进行“整体对齐”,以整合所有加权零件优化,为了获得DLA的内核版本的全局子空间结构,下面对DLA进行了技术审查。
3.2.1.零件优化
DLA的零件优化从每个训练样本和相应的本地补丁开始。每个补丁都是由一个样本及其邻居(包括类内与类间样本)构建的。对于给定的样本x及其对应的补丁,我们可以找到m个最接近的样本。
图3说明了在某种情况下零件优化的过程。结果表明,在投影子空间中,y(黄色三角形)与内部类(红色三角形)的样本接,而y与其他类(蓝色圆圈和绿色正方形)的样本之间的距离)很大,零件优化中的优化功能由下式给出:
3.2.2.整体对齐
零件优化后,我们获得N个不同的优化。在整个对齐阶段,我们将这些零件优化整体整合,通过利用选择矩阵
3.3.内核判别性位置对齐
DLA是一种线性算法,因此我们在再生内核希尔伯特空间(KHS)中进行DLA,这导致S内核判别性局部比对(KDLA)。我们认为可以通过非线性呗射将线性输入空问顿射到内核特征空间。
4.实验
我们进行SHCCR的实验,主要有以下三个步骤:
(a)类似的样本收集和特征提取:在本文中,基准数据集是SCUTC0UCH2009数据集。SCUT-C0UCH2009是一个在线无约束中文笔迹数据集,包含11个不同词汇的子集,包括GB1,GB2,leller,数字符号,Word8888等,并且所有样本均来自190多个主题。在以下实验中,将使用GB1子集,其中包含GB-2312-80标准中的3755个常用的简体中文字符。使用上述SCG方法获得了十个相似的手写汉字识别困难集合,然后是将弹性啮合(ELM)技术作为规范化方法来解决类字符和8向特征以D512尺寸提取。我们将每个相似的样本集C随机分为两个单独的子集,即训练集和测试集。我们利用一种相似的字符集来调整DLA和KDLA的模型参数。表一列出了我们在以下实验中使用的十个相似字符集。图4显示了一些相应的手写样本表一,
(b)歧视性信息的提取:我们评估SDLA和KDLA与三种代表性算法(包括LDA,受监督的本地保护预测(SLPP)和边际渔民分析(NFA)。这些算法在自身的权利上有一定的优点。LDA是一种线性算法。SLPP,MFA和DLA都是流行的流形学习算法,在许多实际应用中,它们的性能优于LDA。值得注意的是,我们采用主成分分析(PCA),以便在我们执行LDA,LPP,MFP和DLA之前删除多余的信息。在PCA步骤中,我们保留N-C尺寸,以确保X-Xt和LDA中散射内的矩阵Sw是非正弦的,因为训练样本的原始特征数量远大于训练样本的数量。我们在SLPP和DLA中保留N-1个维度,以保留此步骤中的所有能量,从而加快学习过程。对于KDLA,我们使用KPCA的100个主要特征来形成后续DLA的空间。在在我们的实验中,我们选择高斯核,并且将empiric设置为6。KDLA的实施是基于定理的。特别是,我们在KPCA主要组成部分所跨越的空间内进行KPCA和DLA。
(c)分类:最小欧氏距离分类器(MEDC)用于识别。
4.1.DLA和KDLA的参数选择
由于DLA的参数设置对其性能至关重要,因此在进行SHCCR之前,我们先进行了DLA参数优化实验。我们目的是为DLA中的主导参数m1和m2找到合适的范围,其中m是给定补丁种类内样本的数量,m是同一补丁类样本的数量。参数b设置为经验值0.15,并且缩小尺寸设置为9。
假设Ni是第i类训练样本的数量,N是训练样本总数。然后,m1和m2可以分别在特定的范围内选择。
图5显示了在相似字符集合上针对不同m1和m2的识别率。当Ni=30时,对m1和m2产生不同的识别率。值得注意的是,红色区域代表DLA获得的最佳性能。m1和m2的最佳组合是m1=29和m2=40,相应的准确度是95.82%。将参数设置为m1=10和m2=30时,识别率达到95.4%,略低于最佳识别率。在本文中,我们选择在以下实验中将此次优设置m1=10和m2=30用于其他相似字符集,以节省计算成本。当Ni为80时,我们使用相同的设置。KDLA的参数调整方法与上述用于调整DLA参数的程序类似。
4.2.SICCR的评估实验
在实验中,我们通过与LDA,SLPP和MFA三种代表性算法进行比较,评估了DLA和KDLA的性能。在训练阶段,我们从列出的十个相似字符集中为每个团队随机选择了(30、80)训练样本,然后,我们为每个类别随机选了100个样本进行测式。训练集和测试集是不相交的。对于不同的算法,我们使用相同的训练集和测试集进行性能评估。图6显示了十个相似字符集的识别率与降维。我们观察到DLA/KDLA的性能优于其他产品。我们还直接对候选集进行了实验,而没有降纸。在30个和80个训练样本设置下,十个相似字符集的平均识别率分别为89.3%和90.7%。
为了便于比较,我们将
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239399],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。