英语原文共 12 页
基于SVM体系结构的手写体数字识别的CNN分类器
摘要
在本文中,我们尝试了一个集中于两个分类器的新模型;卷积神经网络(CNN)和支持向量机(SVM)用于离线手写体数字识别(OAHR),其中应用了神经元丢失技术。在文章当中的系统通过SVM分类器改变了CNN的可训练分类器。其中卷积神经网络有益于提取特征信息以及以SVM作为识别器。该模型能够实现自动从原始图像中提取特征并对图像执行分类。此外,由于神经元丢失技术的强大性能,我们可以防止我们的模型过度拟合。在此次研究当中,评估了其他对手写数字体的识别的性能,训练集和测试集均取自HACDB和IFN / ENIT数据库。仿真结果证明,基于SVM的具有神经元丢失技术的CNN分类器体系结构的新设计方案比没有神经元丢失技术的基于SVM的CNN模型和标准CNN分类器显着更有效。我们的模型的性能与最先进的手写体数字识别系统获得的字符识别准确度进行了比较,结果证明我们的模型性能更佳。
正文
在过去的二十年中,在信号处理和模式识别,离线和在线数据分类的基础上,获得了人们的极大关注。因此,它已广泛应用于各种研究领域,如视觉识别任务,自动语音识别(ASR)和脑电信号分类。
最近,手写体识别已经成为一个受欢迎的研究领域,因为手写捕获设备和移动计算机等技术的进步,这成为一个具有挑战性的话题,手写体数字识别领域已被使用不同算法的研究人员深入研究了几十年,如支持向量机(SVM),多层感知器(MLP) ,隐藏模型马尔可夫(HMM),深度网络(DNN),递归神经网络(RNN)和卷积神经网络(CNN)等。结果多种多样,且大多令人满意。这些机器学习(ML)系统已经在大范围的应用中证明了它们的可靠性和性能,并且在拉丁语和亚洲语言中的光学字符识别(OCR)取得了不菲的成就。这些架构的主要缺点是参数数量众多,因此可能会出现过度拟合。
考虑到离线手写体数字笔迹的识别,我们的研究突出并强调了识别方面。由于形状,凹度,曲率和笔画的差异,手写字符和重叠字符是高度变化的。出于这个原因,我们对识别错综复杂的手写体数字给予了高度的关注和重视。由于这项工作,基于CNN和SVM的分类器的架构被应用到手写体数字。另一方面,在本研究中,为防止我们的架构过度拟合并改善其性能,应用了神经元丢弃技术。该技术包括临时从网络中删除单元。仅在训练阶段中随机选择该移除的单元。该架构混合了下面描述的两种方法的优点。
由LeCun等人发明的的CNN属于分层神经网络,具有巨大的代表能力,可以学习视觉层次结构各层的优良特征。它也被有效地应用于视觉对象识别和手写识别等许多视觉问题。从输入图像中自动提取这些特征,其具有对输入文本图像的移位和形状失真不变的特性。
另一方面,支持向量机(SVM)被认为是由Vapnik创建的机器学习(ML)中最强大的最具鲁棒性的算法之一,已经成为许多领域中众所周知的方法,如模式识别,分类和图像处理。
CNN包括许多卷积和子采样层,其可选地伴随有完全连接层(FCL)。 FCL对于标准多层感知器中的层是均匀的。然而,MLP算法在分类任务中存在两个限制:首先,分类任务和MLP结构之间缺乏理论关系。其次,在特征表示空间中,MLP两类样本点的分界面并不是最佳的。为了找到解决这些问题的合适方案,在我们的实验中,我们通过用SVM分类器替换FCL的输出层来修改CNN结构。 SVM的目的是通难过结构风险最小化(SRM)原则来降低训练集中的泛化误差。因此,SVM的泛化能力优于MLP。
通过展示在MNIST以及NIST SD 19数据库上训练的深度CNN,包括大写字母和大写字母,Ciresan等通过构建7个CNN证明了其模型的稳健性。我们可以将获得的平均错误率视为最佳结果。后来,Niu和Suen提出了一种新的混合CNN / SVM模型来解决利用MNIST数字数据库的手写数字识别问题。值得注意的是,混合模型获得的错误分类率已经取得了更好的结果。Theodore等研究了卷积神经网络和隐马尔可夫模型在手写单词识别方面的结合,并通过在IAM 和Rimes 数据库上使用CNN / HMM混合模型获得了满意的结果。
另一种广泛使用的分类器是支持向量机(SVM)。模式识别的调查应用由Byun和Lee 提出。他们使用SVM,根据他们的目标鉴别了七个类别,如面部检测/验证,对象识别,手写字符/数字识别等,而Chen等人提出了一个使用SVM的识别系统。 Gabor特征的效率证明了以前用于手写体数字识别的特征技术的优越性。最近,Elleuch等人使用SVM分类器(DSVM)使用HACDB数据库识别手写题数字,研究了Deep Network的性能。 DSVM允许使用支持向量提取高级别判别功能,从而最大限度地提高边际,并保证了泛化性能。实验研究证明了与最先进的数字OCR相当的有利结果。
大多数这些网络,尤其是具有深度体系结构的网络,如CNN,深度CNN,RNN和DNN等,其特征在于大量隐藏层和太多参数。然而,过度拟合是这种网络中的严重问题。神经元丢弃技术是解决这个问题的技术。该技术成功应用于几种类型的神经网络,并显示出识别率的显着改善。
Hinton等人。 [9]引入了神经元丢弃训练,作为在训练过程的每次迭代中随机省略特征子集来控制过度拟合的方法。他们表明,神经元丢弃提高了神经网络在视觉,语音识别,文档分类和计算生物学中监督学习任务的性能,在许多基准数据集上获得了最先进的结果。
直到最近,还没有研究人员将CNN和SVM方法应用于手写数字体领域。在这项研究中,提出了一种新的基于CNN分类器架构的SVM设计。我们研究使用或者不使用神经元丢弃技术的CNN和SVM分类器的合理优势。基于CNN的SVM模型将CNN作为原始图像的自动特征提取器,通过分手写字符分类任务的错误分类率,让SVM进行分类。神经元丢弃技术的训练是通过在训练过程的每次迭代中随机省略特征子集来控制过度拟合的有效方式。
本文其余部分的组织如下。在第2节中,我们介绍了卷积神经网络(CNN)和支持向量机(SVM)分类器背后的基本概念。提出了为手写体数字识别设计的基于CNN的SVM模型,然后描述了适用于该模型的神经元丢弃技术。我们的实验研究和结果在第3节中给出并分析。最后,第4节给出了一些结论性的评论。
2系统概述
在本节中,我们简要总结了卷积神经网络和支持向量机分类器。然后,我们描述了我们提出的基于CNN的SVM模型,具有用于手写识别(OAHR)的神经元丢弃技术。
2.1 CNN
CNN分类器是一种采用反向传播算法训练的具有深度监督学习架构的分层多层神经网络,卷积神经网络由自动特征提取器和可训练分类器组成。 CNN被用于学习复杂的高维数据,诸多的CNN结构在如何使用卷积和子采样层方面存在差异。相同之处在于他们的架构。许多CNN架构被建议用于不同的问题,其中对象识别和手写数字/字符识别。此外,为了保证比例,移位和失真的某种程度的不变性,CNN混合了三个主要的层次方面,如局部感受域,权重共享和空间子采样。
如图1所示,网络代表用于手写字符识别的典型卷积神经网络架构。它包括一组几层。最初,输入与一组滤波器(C隐藏层)进行卷积,以便获得特征映射的值。接下来,为了减小特征图的空间分辨率的维度(S隐藏层),通过子采样层来追踪每个卷积层。卷积层交替子采样层构成特征提取器,以从原始图像中检索区别特征。最终,这些层由两个完全连接的层(FCL)和输出层追踪。每层采用前一层的输出作为输入。
图1 典型的CNN结构
2.2 SVM分类器
支持向量机由Vapnik 和Cortes 开发,是强大的分类器。它已被广泛利用,对许多模式分类/识别任务都有不错的结果。由于其简约性,灵活性,预测能力和全局的最佳特性,它被认为是解决线性和非线性分类问题的最先进工具。它们的制定基础是结构风险最小化,而不是传统上用于人工神经网络的经验风险最小化。
SVM主要用于通过采用基于将样本点映射到高维特征空间的新技术来确定最佳分离超平面(方程1)或决策表面,并且使用非线性变换1对其进行分类,即使在数据是线性不可分割的。通过求解依赖于正则化参数的二次规划问题来获得最优超平面。这种转换是通过线性,径向基函数,S形和多项式核类型等核函数进行的;
线性核函数:
多项式核函数:
Sigmoid核函数:
径向基核函数:
其中d,beta;0,beta;1和gamma;是根据经验确定的参数。
其中 W ϵ Rn , b ϵ R以及Phi;(x)是特征向量。
图2 一对一分类以及一对多分类的示意图
在此次研究当中,由于特征空间是线性不可分的,我们通过非线性算子phi;(x)把把输入参数(x,y)映射到更高维的空间当中,因此,最佳超平面可以定义为:
其中K(x,y)为径向基核函数(RBF),sgn(.)为sgn函数。该分类器模型称为RBF内核SVM,用于替换CNN体系结构的最后输出层,以对手写数字体进行分类。
2.3对于ML系统体系结构的建议
在本节中,我们提出了基于CNN和SVM的OAHR系统的体系结构,其中CNN被认为是深度学习算法,在训练期间已经应用了神经元丢弃技术。我们提出的系统是通过用SVM分类器改变CNN的可训练分类器来定制的。我们的目标是将CNN的能力和SVM相结合,以获得受两种形式启发的新的有效识别系统。
我们在图3中展示了基于CNN的SVM模型的网络架构。注意到它如下所示。首先,第一层原始图像像素作为输入。其次,网络的第二层和第四层是具有子采样层的卷积层,其采用合并的特征图作为输入。因此,它们能够提取对输入图像的局部变换不变的特征。 FCL是由N个神经元组成的第六层。最后一层用SVM代替RBF内核进行分类。由于使用大量数据和参数,可能会发生过度拟合。因此,为了防止我们的网络出现此问题并进行改进,应用了神经元丢弃技术。该技术包括临时从网络中删除单元。仅在训练期间随机选择该移除的单元。 Dropout仅应用于FCL层,更准确地说,它应用于前馈连接(perceptron)。这个选择基于以下事实:由于卷积层没有很多参数,因此过度拟合不是问题,因此丢失不会产生太大影响。
隐藏单元的输出由SVM作为训练过程的特征向量。之后,训练阶段继续进行,直到实现良好的训练。最后,SVM分类器使用这种自动提取的特征对测试集进行分类。
在我们的实验中采用的基于CNN的SVM模型的结构在第3节第3.3段中给出。
图3 SVM-CNN结构图
3实验,结果和讨论
我们进行了实验研究,以便通过使用基于CNN的SVM模型来探索神经元丢弃技术的效率,以便识别离线阿拉伯字符。我们在HACDB数据库和IFN / ENIT数据库上测试了CNN的这种新架构。结果逐项列出并在以下小节中讨论。 3.1 HACDB和IFN / ENIT数据库
HACDB数据库[33]包含由50人编写的6.600种形状的手写字符(图4-b)。每个作者为66种形状生成了两种形式:58种形状的字符和8种形状的重叠字符(代表24个基本字符/重叠字符,不带点)。数据集分为5.280个图像的训练集和1.320个图像的测试集。 IFN / ENIT数据库由超过411位不同作者手写的26.459个阿拉伯语单词组成。手写的单词代表937个突尼斯城镇/村庄名称。图像被分成四组(a-d)。它是使用最广泛的数据库之一。在这项研究中,单词被分成集合(a)和(b)中的字母。我们保留了1.120张图像作为测试数据。这些图像包括56种形状的字符(图4-a)。两个数据库由灰度图像组成,标准化为28乘28像素。表1列出了每种形状的类别详情。
3.2系统设置
为了评估所提出的基于CNN的SVM可训练特征提取器模型的效率,我们训练和识别了HACDB数据库的特征。我们观察到卷积网络需要大量样本来学习参数。因此,为了最好地对模型进行进一步的数据训练,以便我们能够更好地考虑手写的可变性,我们通过Simard等提出的弹性变形技术将训练集的大小减少了十倍。此外,为了评估我们系统的工作,IFN / ENIT数据库被利用。我们在下面的小节中给出了所采用系统的技术实现细节。对于预处理,本实验研究中使用的HACDB数据库虽然不需要进行标准化(降噪,分割),但是执行一些基本的预处理任务还是必要的。然而,为了在划分之后获得更好的图像质量,预处理步骤意味着二值化,降噪和过滤输入文本图像以改善图像的质量。至于特征提取,CNN在本实验中用作紧凑的端到端模型,因此网络的输入是原始图像。最后,对于参数设置:对于设置架构,我们必须定义每层CNN中卷积层的数量,特征映射的大小,权重,内核和偏置。之后,定义SVM的最优核参数和惩罚参数。
3.3使用基于CNN的SVM模型的实验
在本节中,我们研究了基于CNN的SVM模型的性能,该模型具有用于训练和识别阿拉伯字符的神经元丢弃技术。我们通过特征图的大小和数量,内核大小,丢弃因子和连接表来参数化设置体系结构的卷积层。关于SVM分类器,我们必须主要RBF内核的两个参数; Gamma(y)和C.我们通过进行实证检验为我们建议的模型选择了合适的参数。
具有神经元丢弃技术的基于CNN的SVM网络架构如图3所示,应用于具有弹性失真的HACDB数据库的实验,并且以下列方式给出:1 x28x28-6C2S-12C2S表示具有28times;28的输入图像的网络使用四个卷积子采样层给出输入维度为784的像素,它可能被视为可训练的特征提取器。 CNN的完全连接的隐藏层的最终输出层由SVM分类器代替以识别匿名手写文本。
注意,第一卷积层“C1”具有6个特征图,每个特征图具有25个权重,构成5times;5可训练内核和偏差。特征图的大小为24 x 24.这保证了低级特征提取。第二个隐藏层“S1”命名
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。