英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
摘 要
本文的贡献是弥补差距在理解数学结构和方法上卷积神经网络的计算实现使用最模型。所提出的最小卷积神经网络使用分层方法呈现。这个方法提供了一个清晰的认识卷积神经网络中的数学运算。因此,它有利于初学者和非数学多产研究人员了解卷积神经的操作网络没有一个恐吓的经验。一个使用MNIST手写数字的手写数字识别数据集用于实验提的性能最小卷积神经网络。
关键词: 卷积神经网络;深度学习;人工神经网络;人工智能;机器学习;手写数字识别;计算机视觉
一种最小卷积神经网络手写数字识别
第1章 绪论
近年来,卷积神经网络在人工智能(AI)及其应用(特定于计算机视觉)的开发中取得了重大成就。卷积神经网络是一种特殊类型的多层前向人工神经网络,它是一种深度学习技术,广泛应用于计算机视觉,自然语言处理和计算机游戏[1],[2],[ 14]。卷积神经网络是多层感知器(MLP)的双能启发变体,其被设计为仿效人类视觉系统的多层视觉皮层。这种设计主要受接受场理论研究[7]和新识别模型[8]的启发,从而允许卷积神经网络比其他计算机视觉技术更好地从图像学习视觉特征的多级分层结构[2] [5][14]。最近,卷积神经网络已经成为开发商业计算机视觉应用以识别图像对象,识别摄影中的人脸,自动驾驶汽车的道路标志识别,手写字符识别,视频监控和其他视觉任务的有用工具[14 ]。
已经开发了许多算法技术来实现用于不同AI应用的卷积神经网络。 其中,LeNet5是为手写和机器打印字符识别设计的基础和重要卷积神经网络架构之一[4],[5]。 LeCun和他的合作者开发了LeNet5卷积神经网络,这推动了人工智能领域的卷积神经网络的发展,尤其是图像识别[4] [5] [6]。 LeNet5架构是一个完整的卷积神经网络。 完整的LeNet5架构如图1。1所示。
图1.1 LeNet5架构
LeCun和他的合作者的开创性工作使LeNet5被广泛用作基础架构,以开发更新的卷积神经网络,如AlexNet,VGG,GoogLeNet和ResNet [4],[5],[9],[10 ],[11],[12],[14],[15]。 这些是卷积神经网络,旨在击败2012年ImageNet大规模视觉识别挑战(ILSVRC)以及后来的[9],[10]中的所有最先进的图像识别算法。 AlexNet,VGG,GoogLeNet和ResNet在ImageNet图像分类挑战中取得成功后,卷积神经网络作为计算机视觉研究人员设计更有效和复杂的视觉识别应用的重要工具得到了进一步的广泛认可[5]。
不幸的是,卷积神经网络的大多数学习资料和研究文献都是用高级数学表达的。对于初学者来说,很少有介绍性的学习资料,而非数学的多产学习者为图像识别应用开展学习和设计卷积神经网络。因此,本文的贡献是提出一个模仿LeNet5主要算法结构的最小卷积神经网络。这种提出的最小化模型的开发旨在为初学者和非数学多产学习者提供直接的,简化的和愉快的学习体验,以获得有关卷积神经网络的基础知识。提出的最小卷积神经网络采用分层方法,可以让学习者理解卷积神经网络如何处理图像,特别是使用MNIST数据集进行手写字符识别[4],[5],[6]。本文重点介绍基本概念,而不是最新的卷积神经网络技术。
本文分为4个章节。第1章是绪论;第2章解释了最低限度的建议卷积神经网络;第3章介绍实验结果,分析和讨论;最后,第4章总结本文。
第2章 极小卷积神经网络原理分析
在本章中,提出了一个最小卷积神经网络。 所提出的最小卷积神经网络的结构被设计为模拟完全实现的卷积神经网络的主要计算组件[4],[5],[9],[10],[11],[12],[14 ],[15]使用最小的计算组件。所提出的最小卷积神经网络的多级体系结构在图2.1中使用分层方法来呈现。 每层从L1开始直到所提出的最小卷积神经网络中的L8表示在卷积神经网络中执行特定数学函数的计算算法。 接下来的几个小节将解释这些层中的每一层。
如图2.1所示的所提出的最小卷积神经网络由两个主要计算网络组成。 它们是特征学习网络(或特征提取网络)和分类网络[2],[5],[14]。 特征学习网络的目标是执行无监督图像特征学习,它将自动学习输入图像的内部表示[2],[5],[14]。 接下来,学习图像特征将由特征学习网络合成以制定高级图像表示。最后,这个高级图像表示将被输入到分类网络来执行图像识别[2],[5],[14]。
从图2.1可以看出,四个主要的数学算子计算建立了所提出的最小卷积神经网络。这四个数学运算符是所有卷积神经网络的基本构建块。因此,理解这四个数学运算符对于学习最新的卷积神经网络非常有帮助。 这四个数学运算符是:
bull;卷积:卷积层将从输入图像执行特征提取[2],[5],[14]。
bull;整流线性单元(ReLU):它是一种非线性激活功能。 在计算上它引入了分段非线性到卷积神经网络[2],[5]。
bull;池:这是一个空间池层; 在计算上,它对空间的输入特征图执行子采样降维[2],[5],[13],[14]。
bull;Softmax:softmax函数是一个多类分类器,它将学习的特征分类为一组概率值[2],[5],[14]。
图2.1最小卷积神经网络
A.输入层
输入层L1将输入图像读入所提出的最小卷积神经网络。 该输入层由各种低级图像处理功能组成,以将输入图像预处理为卷积神经网络的适当数据类型。 为了确保卷积神经网络的计算效率,输入图像的大小优选为2的幂的大小。
B.卷积层
卷积层L2被设计为从输入图像提取像素特征[2],[5]。 这个层中的可训练卷积核将通过反向传播训练自动调整其核重以学习输入图像特征[3],[4]。 由卷积层学习的图像特征将允许连续的算法层为其他计算操作处理学习的特征。 卷积特征学习技术是无监督的,它受到接受场理论[7]和新识别模型[8]的研究的神经启发。
卷积con(·)是输入图像i和卷积核k的点积。输出卷积层是一个卷积特征映射。形式上,
通过以下获得:
(2.1)
这里表示一个二维离散卷积算子。 等式1表明,卷积核K在输入图像I上滑动,在空间上计算单元乘法和求和以产生输出,即卷积特征映射。
卷积提供了权重共享,稀疏交互(局部连通性)和无监督特征学习的等变表示。 有关这些卷积属性的更深入的技术细节可以在以下文献中[2],[5],[8],[11],[12],[14]找到。
C. ReLU层
ReLU代表整流线性单位。 这是一个非线性激活函数。 ReLU层L3和L6的目标是向卷积神经网络引入逐点非线性,这使网络具有逼近非线性输入函数的能力。 此外,ReLU已被证明是解决使用反向传播算法训练卷积神经网络中消失梯度问题的有效方法[3],[4]。
ReLU函数的数学结构是一个具有最大输出指示函数的分段非线性算子。 ReLU层的输出是一个修正的特征图,由以下公式给出:
(2.2)
公式2.2为所有负输入生成零,并线性传送所有正输入的输入。
D.合并层
合并层L4的目的是对经整理的特征映射fr进行二次采样以减小其空间维度,从而产生fr [2],[5],[13]的更紧凑特征表示。 这个合并图层的输出是一个合并的特征映射fp。 有两种广泛使用的汇集技术; 他们是最大的汇集和平均汇集[13]。 在本文中,平均汇集用于所提出的最小卷积神经网络。 在数学上,平均汇聚函数pool(·)被定义为:
(2.3)
图2.2说明了平均池功能的操作。 输入图像矩阵被划分为一组不相交的片段,而“平均池”这些不相交的片段组成一个图像矩阵。 计算上,“平均池”操作手段计算来自“输入特征图”的不相交区域的平均值,然后将该计算的平均值存储到“输出特征图”中。
图2.2平均池计算
“平均池”输入特征图的目标是特征收缩。 它为输入特征映射生成紧凑的表示。 因此,减少了用于训练卷积神经网络的计算时间和学习参数。 合并操作是不可逆的[13]。
E.映射特征表示层
映射特征表示层L5的功能是将汇集的特征映射从二维结构重新映射为一维向量。 输出是一个“拼合”的特征映射。 这是分类网络的数据准备层。
F. Softmax层
提出的最小卷积神经网络的L7是Softmax函数Softmax()。它是一个多类逻辑分类器。 softmax函数的第i个概率输出计算如下:
(2.4)
公式2.4的输出是一个单热概率分布,其中包含[0,1]范围内的实数值,其和为1以表示n个不同类别的概率。 在本文中,所提出的最小卷积神经网络被训练成将MNIST数字图像从“0”分类到“9”,因此输出y具有10个分类类别,其中n = 10。 具有最高概率值的数字图像被识别为正确的输出。
G.输出层
输出层L8呈现由softmax函数给出的分类结果。
H.训练最小卷积神经网络
我们使用监督训练来训练提出的最小卷积神经网络。 使用一种小批量梯度下降的方式进行训练,以最大限度地减少期望输出与实际输出之间的学习错误。 梯度是使用反向传播算法计算的。 所有网络参数和训练系数通过反向传播学习方法进行更新。 学习率和动量分别设定为0.01和0.95。 本文的重点是解释卷积神经网络的前馈模型,因此训练卷积神经网络将不会在本文中进一步解释。 希望了解使用反向传播算法训练卷积神经网络的细节的读者以及用于优化训练参数的方法可以进一步研究以下文献[3],[4],[5],[6],[11 ],[12],[14],[15]。
第3章 实验结果分析与讨论
在这一章中,主要介绍使用手写数字识别应用提出的最小卷积神经网络的实验分析和结果讨论。使用改良的国家标准与技术研究院(MNIST)手写数字数据集进行实验。LeCun和他的合作者开发了这个数据集,目的是评估他们的LeNet模型在手写数字识别问题上的作用[4],[5],[6]。数据集的数字图像从各种扫描文档中捕获,规格化并居中。这使MNIST成为测试学习模型的优秀数据集,因为研究人员可以专注于手写数字识别算法的开发,而不用花时间在数据清理和准备上。因此,MNIST数据集被广泛接受为评估学习算法的手写数字识别性能的标准测试数据集。
MNIST数据集由70,000个不同的手写数字图像组成,其中60000个数字图像用于训练,10,000个数字图像用于测试。 每个数字图像的空间分辨率是像素平方。 它们是黑白图像。 MNIST数据集还包括每个数字图像的标签,告诉我们它是哪个数字。图3.1显示了数据集样本。
图3.1 手写数字示例,MNIST数据集中的图像
本章分为两个小节。 A小节通过功能图可视化和讨论展示功能学习能力分析。B小节讨论了所提出的最小卷积神经网络的MNIST手写数字识别性能。
A.分析和可视化特征映射
在本小节中,我们希望系统地分析由所提出的最小卷积神经网络计算出的一组特征映射。 我们为什么要分析这些特征图? 由于这些特征图显示了所提出的最小卷积神经网络(从L2到L5,如图2所示)中每个隐藏层处的神经元激活。 因此,我们可以理解提出的最小卷积神经网络如何从输入图像中学习(提取)视觉特征[2],[5],[8],[14]。 我们对所有实验图像的亮度进行了归一化处理,以便更好地进行视觉检查 对于所有测试图像,像素值已经归一化到[-1, 1]的范围。 黑色像素为负值的像素,白色像素为正值像素,灰色像素为零像素。第一,如图3.2所示,所提出的最小卷积神经网络的L1的第一输入参数是输入图像。 我们采样了MNIST数字“3”图像,如图3.2所示,以分析所提出的最小卷积神经网络的计算功能。
图3.2 来自MNIST数据集的手写数字“3”图像
第二,如图3.3所示,将一组20个可训练的卷积核输入到L1,每个核的大小为9 times;9,并且一组随机初始权重被输入到L1。可训练的卷积核意味着核的权重不是预定的; 他们在反向传播训练中学习。 卷积核是所提出的最小卷积神经网络的第二输入参数。 图6给出了在时期= 3(第三次训练之后)之后的集合卷积核的一个例子。
图 3.3 epoch = 3之后的训练卷积核特征图
从图3.3中注意到一个重要的观察结果是卷积核被训练为在输入图像的每个空间位置处提取具有方向(Gabor特征)的可学习的像素特征(模式),如等式1。 为了证明,图3.3中示出了具有它们各自的特征提取取向的几个卷积核。
以下总结了卷积核的其他重要观察结果,如图3.3所示。
bull;它们表示网络的本地接受域,用于提取输入图像的局部像素特征。
bull;内核大小在空间上有界,因此它提供了紧凑的支持来检测对小的几何变化不变的局部化像素特征。
bull;这些卷积内核已经过训练,可以学习输入图像的各种特征方向,以从该图像中检测最大
全文共8469字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[16184],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。