基于机器学习的手写字识别外文翻译资料

 2021-11-14 22:17:36

英语原文共 9 页

摘要

深度学习允许由多个处理层组成的计算模型来学习具有多个抽象级别的数据表示。这些方法极大地改进了语音识别,视觉对象识别,物体检测以及药物发现和基因组学等许多其他领域的最新技术。深度学习通过使用反向传播算法来指示机器应如何更改其内部参数(用于从前一层中的表示计算每个层中的表示)来发现大数据集中的复杂结构。深度卷积网络在处理图像,视频,语音和音频方面带来了突破,而循环网络则在文本和语音等顺序数据处理取得了突破。

机器学习技术为现代社会的许多方面提供动力:从网络搜索到社交网络上的内容过滤,再到电子商务网站上的推荐,它越来越多地出现在诸如照相机和智能手机等消费产品中。机器学习系统用于识别图像中的对象,将语音转录为文本,匹配新闻项目,帖子或具有用户兴趣的产品,并选择相关的搜索结果。这些应用程序越来越多地使用一种称为深度学习的技术。

传统的机器学习技术在处理原始形式的自然数据方面受到限制。几十年来,构建模式识别或机器学习系统需要精心的工程和相当多的领域专业知识来设计一个特征提取器,将原始数据(例如图像的像素值)转换为合适的内部表示或特征向量。学习子系统(通常是分类器)可以检测或分类输入中的模式。

表征学习是一组允许为机器提供原始数据并自动发现检测或分类所需的表示方法。深度学习是具有多个浅层级别的表征学习方法,通过组合简单但非线性的模块获得,每个模块将表示在一个级别(从原始输入开始)转换为更高,更抽象级别的表示。通过足够的这种变换的组合,可以学习非常复杂的功能。对于分类任务,较高的表示层放大了对于区分和抑制无关变化很重要的输入方面。例如,图像以像素阵列的形式出现,并且第一表示层中的学习特征通常表示图像中特定方向和位置处的边缘的存在或不存在。第二层通常通过点样特定的边缘排列来检测图案,而不管边缘位置的微小变化。第三层可以将图案组合成对应于熟悉对象的部分的较大组合,并且随后的层将检测对象作为这些部分的组合。深度学习的关键方面是这些功能层不是由人类工程师设计的:它们是使用通用学习程序从数据中学习的。

深度学习在抵制人工智能界多年来最佳尝试问题方面取得了重大进展。事实证明,它非常擅长发现高维数据中复杂的结构,因此适用于许多科学,商业和政府领域。除了在图像识别和语音识别中击败记录外,它还在预测潜在药物分子的活动方面击败其他机器学习技术,分析粒子加速器数据,重建大脑回路,并预测非编码DNA中突变对基因表达和疾病的影响。也许更令人惊讶的是,深度学习已经为自然语言理解中的各种任务产生了非常有希望的结果,特别是主题分类,情感分析,问答和语言翻译。

我们认为深度学习在不久的将来会有更多的成功,因为它需要手工制作很少的工程,因此它可以轻松利用可用计算和数据量的增加。目前正在为深度神经网络开发的新学习算法和架构只会加速这一进展。

表征学习

最常见的机器学习形式,无论是不是深度学习,都是有监督的学习。想象一下,我们想要建立一个系统,可以将图像分类为房子,汽车,人或宠物。我们首先收集房屋,汽车,人和宠物的大量数据集,每个都标有其类别。在训练期间,机器被显示为图像并以分数矢量的形式产生输出,每个类别一个。我们希望所需的类别在所有类别中得分最高,但这在培训之前不太可能发生。我们计算一个目标函数来测量输出分数和所需分数模式之间的误差(或距离)。然后,机器修改其内部可调参数以减少此错误。这些可调参数(通常称为权重)是实数,可以看作是定义机器输入输出功能的“旋钮”。在典型的深度学习系统中,可能存在数亿个这样的可调节重量,以及用于训练机器的数亿个标记示例。

为了适当地调整权重向量,学习算法计算梯度向量,对于每个权重,如果权重增加很小,则表示误差将增加或减少的量。 然后在与梯度矢量相反的方向上调整权重向量。

平均所有训练样例的目标函数可以看作是一种重要价值的高维空间。负梯度向量表示该景观中最陡下降的方向,使其接近最小值,其中输出误差平均较低。

在实践中,大多数从业者使用称为随机梯度下降(SGD)的过程。 这包括显示几个示例的输入向量,计算输出和误差,计算这些示例的平均梯度,以及相应地调整权重。 对于来自训练集的许多小例子,重复该过程,直到目标函数的平均值停止减小。 它被称为随机因为每个小的例子给出了对所有例子的平均梯度的噪声估计。 与更精细的优化技术相比,这种简单的程序通常能够以惊人的速度快速找到一组良好的权重。在训练之后,系统的性能在称为测试集的不同示例集上测量。 这有助于测试机器的泛化能力,它能够对训练期间没见过的新输入产生合理的答案。

机器学习的许多当前实际应用在手工设计的特征之上使用线性分类器。 两类线性分类器计算特征向量分量的加权和。 如果加权和高于阈值,则输入被分类为属于特定类别。

自20世纪60年代以来,我们已经知道线性分类器只能将其输入空间划分为非常简单的区域,即由超平面分隔的半空间。但是诸如图像和语音识别之类的问题要求输入输出功能对输入的无关变化不敏感,例如位置的变化,物体的方向或照明,或者语音的音调或重音的变化,同时非常对特定的微小变化敏感(例如,白狼和一种叫做萨摩耶的狼类白狗之间的差异)。在像素级别,不同姿势和不同环境中的两个萨摩耶的图像可能彼此非常不同,而在相同位置和相似背景上的萨摩耶和狼的两个图像可能彼此非常相似。线性分类器或在原始像素上运行的任何其他“浅”分类器不可能区分后两者,而将前两者放在同一类别中。这就是为什么浅层分类器需要一个良好的特征提取器来解决选择性不变性困境的原因——产生对图像方面具有选择性的表征,这些表征对于区分是重要的,但是对于不相关的方面是不变的,例如姿势。动物。为了使分类器更强大,可以使用通用的非线性特征,就像内核方法一样,但是像高斯内核那样的通用特征不允许学习者远离训练样例进行推广。传统的选择是手工设计好的特征提取器,这需要相当多的工程技能和领域专业知识。但是,如果可以使用通用学习程序自动学习好的功能,则可以避免这一切。这是深度学习的关键优势。

深度学习体系结构是简单模块的多层堆栈,其中所有(或大多数)模块都需要学习,其中许多模块计算非线性输入输出映射。 堆栈中的每个模块都会转换其输入,以增加表示的选择性和不变性。 通过多个非线性层,比如深度为5到20,系统可以实现其输入的极其复杂的功能,例如在区分萨摩耶与白狼中,同时对微小细节敏感,并且对大的无关变化(如背景姿势,灯光和周围物体)不敏感。

反向传播训练多层架构

从模式识别的早期开始,研究人员的目标就是用可训练的多层网络取代手工设计的特征,但尽管它很简单,但直到20世纪80年代中期才得到广泛的理解。 事实证明,多层架构可以通过简单的随机梯度下降进行训练。 只要模块的输入功能和内部权重相对平滑,就可以使用反向传播过程计算梯度。 在20世纪70年代和80年代,几个不同的团体独立地发现了这种可以做到并且有效的想法。

用于计算目标函数相对于多层模块堆栈的权重的梯度的反向传播过程仅仅是衍生物链规则的实际应用。 关键的见解是,目标相对于模块输入的导数(或梯度)可以通过相对于该模块的输出(或后续模块的输入)从梯度向后工作来计算(图 1)。 反向传播方程可以重复应用,以传播所有模块的梯度,从顶部的输出(网络产生其预测)一直到底部(外部输入被馈送)。 一旦计算出这些梯度,就可以直接计算相对于每个模块的权重的梯度。

深度学习的许多应用使用前馈神经网络体系结构,学习将固定大小的输入(例如,图像)映射到固定大小的输出(例如,几个类别中的每一个的概率)。为了从一个层到另一个层,一组单元计算来自前一层的输入的加权和,并通过非线性函数传递结果。目前,最流行的非线性函数是整流线性单元(ReLU),它只是半波整流器f(z)= max(z,0)。在过去的几十年中,神经网络使用更平滑的非线性,例如tanh(z)或1 /(1 exp(-z)),但ReLU通常在具有多层的网络中学得更快,允许训练深度监督网络没有无人监督的预训练。不在输入或输出层中的单元通常称为隐藏单元。隐藏层可以看作是以非线性方式扭曲输入,因此类别可以通过最后一层线性分离。

在20世纪90年代后期,神经网络和反向传播在很大程度上被机器学习社区所抛弃,被计算机视觉和语音识别领域所忽视。 人们普遍认为,学习有用的,多阶段的,具有很少先验知识的特征提取器是不可行的。 特别是,人们普遍认为简单的梯度下降会陷入较差的局部极小 - 重量配置中,不会有小的变化会降低平均误差。

在实践中,较差的局部最小值很少成为大型网络的问题。 无论初始条件如何,系统几乎总能达到非常相似质量的解决方案。 最近的理论和实证结果强烈表明,局部最小值一般不是一个严重的问题。 相反,景观中充满了组合大量的鞍点,其中梯度为零,表面在大多数维度上向上弯曲,在余数中向下弯曲。分析似乎表明,只有少数向下弯曲方向的鞍点存在非常大的数量,但几乎所有鞍点都具有非常相似的目标函数值。 因此,算法陷入困境中的哪些鞍点并不重要。

由加拿大高级研究院(CIFAR)召集的一组研究人员在2006年左右恢复了对深度前馈网络的兴趣。 研究人员介绍了无监督学习程序,可以创建多层特征检测器而无需标记数据。 学习每层特征检测器的目的是能够重建或模拟下面层中特征检测器(或原始输入)的活动。 通过使用该重建目标“预训练”若干层逐渐更复杂的特征检测器,可以将深度网络的权重初始化为合理值。 然后可以将最后一层输出单元添加到网络顶部,并且可以使用标准反向传播对整个深度系统进行微调。 这非常适用于识别手写数字或检测行人,特别是当标记数据量非常有限时。

这种预训练方法的第一个主要应用是语音识别,它通过快速图形处理单元(GPU)的出现而成为可能,这些单元便于编程并允许研究人员以10或20倍的速度训练网络。在2009年,该方法用于将从声波提取的系数的短时间窗口映射到可能由窗口中心的帧表示的各种语音片段的一组概率。它在标准语音识别基准测试中取得了破纪录的成绩,该基准测试使用了一个小词汇表,并且很快就开发出来,可以在大型词汇表任务中创造破纪录的结果。到2012年,许多主要语音组正在开发2009年的深网版本,并且已经部署在Android手机中。对于较小的数据集,无监督的预训练有助于防止过度拟合,当标记示例的数量较少时导致明显更好的泛化,或者在传输设置中,我们有一些“源”任务的示例,但对于某些“源”任务很少#39;目标#39;任务。一旦深度学习得到恢复,事实证明只有小型数据集才需要预训练阶段。

然而,有一种特殊类型的深度前馈网络比相邻层之间具有完全连通性的网络更容易训练和推广。 这是卷积神经网络(ConvNet)。 在神经网络失宠的时期,它取得了许多实际成功,并且最近被计算机视觉界广泛采用。

卷积神经网络

卷积神经网络设计用于处理以多个阵列形式出现的数据,例如由三个包含三个颜色通道中的像素强度的2D阵列组成的彩色图像。 许多数据模式采用多个数组的形式:信号和序列的1D,包括语言; 2D用于图像或音频谱图; 和视频或体积图像的3D。卷积神经网络背后有四个关键概念利用自然信号的属性:本地连接,共享权重,池和多层的使用。

典型的ConvNet架构是一系列阶段。前几个阶段由两种类型的层组成:卷积层和池化层。卷积层中的单元被组织在特征映射中,其中每个单元通过称为滤波器组的一组权重连接到前一层的特征映射中的局部补丁。然后,该局部加权和的结果通过诸如ReLU的非线性。特征图中的所有单位共享相同的过滤器库。层中的不同特征映射使用不同的滤波器组。这种架构的原因是双重的。首先,在诸如图像的阵列数据中,局部值组通常高度相关,形成易于检测的独特局部图案。其次,图像和其他信号的局部统计对于位置是不变的。换句话说,如果图案可以出现在图像的一个部分中,它可以出现在任何地方,因此不同位置的单元的概念共享相同的权重并在阵列的不同部分中检测相同的图案。在数学上,由特征映射执行的滤波操作是离散卷积,因此这么命名。

尽管卷积层的作用是检测来自前一层的特征的局部连接,但池化层的作用是将语义相似的特征合并为一个。 因为形成图案的特征的相对位置可以稍微变化,所以可以通过粗粒化每个特征的位置来完成可靠地检测图案。 典型的池化单元计算一个特征映射(或几个特征映射)中的本地单元补丁的最大值。 相邻池化单元从多个行或列移位的块中获取输入,从而减小表示的维度并创建小移位和失真的不变性。 堆叠两个或三个阶段的卷积,非线性和汇集,然后是更多卷积和完全连接的层。 通过ConvNet反向传播渐变就像通过常规深度网络一样简单,允许训练所有滤波器组中的所有权重。

深度神经网络利用了许多自然信号是组合层次结构的属性,其中通过组合较低级别的特征来获得更高级别的特征。 在图像中,边缘的局部组合形成图案,图案组合成零件,零件形成物体。 语音和文本中存在类似的层次结构,从声音到电话,音素,音节,单词和句子。 当前一层中的元素的位置和外观不同时,池化允许表示变化非常小。

ConvNets中的卷积和汇集层直接受到视觉神经科学中简单细胞和复杂细胞的经典概念的启发,整体架构让人联想到视觉皮层腹侧通路中的LGN-V1-V2-V4-IT层次结构。 当ConvNet模型和猴子显示相同的图片时,ConvNet中高级单位的激活解释了猴子颞下皮质中随机组160个神经元的一半方差。 ConvNets的根源在于神经认知机,其架构有些相似,但没有端到端的监督学习算法,如反向传播。 一个称为延时神经网络的原始1D ConvNet用于识别音素和简单单词。

卷积网络的许多应用可以追溯到20世纪90年代早期,从用于语音识别和文档阅读的延时神经网络开始。 文档阅读系统使用ConvNet与实现语言约束的概率模型联合训练。 到20世纪90年代末,这个系统读取了美国所有支票的10%以上。 微软后来部署了许多基于ConvNet的光学字符识别和手写识别系统。 ConvNets还在20世纪90年代早期进行了实验,用于自然图像中的物体检测,包括面部和手部,以及面部识别。

深度卷积网络的图像理解

自21世纪初以来,ConvNets已经取得了巨大的成功

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。