深度学习外文翻译资料

 2022-01-27 21:29:10

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


深度学习

Yann LeCun1,2, Yoshua Bengio3 amp; Geoffrey Hinton4,5

深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据表示。这些方法极大地提高了语音识别、视觉目标识别、目标检测以及药物发现和基因组学等许多领域的技术水平。深度学习在大数据集中发现复杂的结构,它使用反向传播算法来指示机器应该如何改变用于计算每一层表示的内部参数,而不是上一层中的表示。深度卷积网络在处理图像、视频、语音和音频方面取得了突破性进展,而递归网络则为文本和语音等连续数据带来了曙光。

机器学习技术为现代社会的许多方面提供了动力:从网络搜索到社交网络上的内容过滤,再到电子商务网站上的推荐,它越来越多地出现在照相机和智能手机等消费产品中。机器学习系统用于识别图像中的对象,将语音转录成文本,将新闻条目、帖子或产品与用户的兴趣进行匹配,并选择相关的搜索结果。这些应用程序越来越多地使用一种称为深度学习的技术。

传统的机器学习技术在以原始形式处理自然数据的能力方面受到限制。几十年来,构造一个模式识别或机器学习系统需要仔细的工程和相当多的专业知识设计一个功能器,改变了原始数据(如图像的像素值)到合适的内部表现形式或特征向量的学习子系统,往往一个标识符,可以在输入检测或分类模式。

表示学习是一组方法,它允许向机器输入原始数据,并自动发现检测或分类所需的表示。深度学习方法是具有多个级别的表示的表示学习方法,通过组合简单但非线性的模块获得,每个模块将一个级别的表示(从原始输入开始)转换为更高、稍微抽象的级别的表示。有了足够多的这种变换的组合,就可以学习非常复杂的函数。对于分类任务,较高的表示层会放大输入中对识别很重要的方面,并抑制无关的变化。例如,图像以像素值数组的形式出现,而在第一层的表示中学习到的特征通常表示图像中特定方向和位置上是否存在边缘。第二层通常通过定位边缘的特定排列来检测图案,而不考虑边缘位置的微小变化。第三层可以将图案组合成更大的组合,对应于熟悉物体的各个部分,随后的层将检测出这些部分的组合。深度学习的关键方面是这些特性层不是由人类工程师设计的:它们是使用通用的学习过程从数据中学习的。

深度学习在解决问题方面取得了重大进展,这些问题多年来一直受到人工智能领域的抵制。它非常善于在高维数据中发现复杂的结构,因此适用于科学、商业和政府的许多领域。除了在图像识别1-4和语音识别5-7方面胜过记录外,它还在预测潜在药物分子8的活性、分析粒子加速器数据9,10、重建大脑回路11、预测非编码DNA突变对基因表达和疾病12,13的影响等方面胜过其他机器学习技术。也许更令人惊讶的是,深度学习在自然语言理解14的各种任务中都产生了非常有前途的结果,尤其是主题分类、情感分析、问答系统15和语言翻译16,17

监督学习

机器学习最常见的形式,无论是否深入,都是有监督的学习。假设我们想要构建一个系统,该系统可以将图像分类为包含,例如,房子、汽车、人或宠物的图像。首先,我们收集了大量的房屋、汽车、人和宠物的图像,每个图像都有自己的分类。在训练过程中,机器会显示一幅图像,并以分数向量的形式输出,每个类别对应一个分数向量。我们希望期望的类别在所有类别中得分最高,但这在训练之前是不可能发生的。我们计算一个目标函数,它度量输出分数和期望的分数模式之间的误差(或距离)。然后,机器修改其内部可调参数,以减少这个错误。这些可调参数通常称为权重,它们是实数,可以看作是定义机器输入输出函数的“旋钮”。在一个典型的深度学习系统中,可能有数亿个这样的可调权重,以及数亿个带有标签的示例来训练机器。

为了正确调整权值向量,学习算法计算出一个梯度向量,对于每个权值,该梯度向量表示如果权值增加一点点,误差会增加或减少多少。然后将权向量调整到梯度向量的相反方向。

目标函数在所有训练样本中取平均值,可以看作是权重值高维空间中的一种丘陵景观。负梯度向量表示该景观中下降最陡的方向,使其更接近最小值,其中输出误差平均较低。

在实践中,大多数实践者使用一种称为随机梯度下降(SGD)的方法。这包括显示几个示例的输入向量,计算输出和错误,计算这些示例的平均梯度,并相应地调整权重。从训练集到目标函数的平均值停止下降,对许多小样本重复这个过程。它被称为随机的,因为每个小的例子集给出了所有例子的平均梯度的噪声估计。与复杂得多的优化技术18相比,这个简单的过程通常能以惊人的速度找到一组好的权重。训练结束后,系统的性能在另一组被称为测试集的示例上进行测试。测试的目的是测试机器的泛化能力——它对在训练期间从未见过的新输入产生合理答案的能力。

目前机器学习的许多实际应用在手工设计的特性之上使用线性分类器。两类线性分类器计算特征向量分量的加权和。如果加权和大于阈值,则将输入分类为属于特定类别。

自20世纪60年代以来,我们已经知道线性分类器只能将它们的输入空间分割成非常简单的区域,即由超平面19分隔的半空间。但图像和语音识别等问题,需要对输入输出函数无关的输入的变化,如位置的变化,取向或照明的一个对象,或音调的变化或口音的言论,而特定的微小变化非常敏感(例如,一个白色的区别狼和狼一样的白狗的品种称为萨莫耶德人)。在像素层面上,两个萨摩耶犬在不同姿态和不同环境下的图像可能相差甚远,而萨摩耶犬和狼在相同位置和背景下的图像可能相差甚远。线性分类器或任何其他对原始像素进行操作的“浅层”分类器不可能区分后两者,而将前两者放在同一类别中。这就是为什么浅层分类器需要一个好的特征提取器来解决选择性不变性难题——即生成对图像中重要的识别方面具有选择性的表示,但对不相关的方面(如动物的姿势)具有不变性的表示。为了使分类器更强大,我们可以像使用核方法20那样使用一般的非线性特征,但是一般的特征,如高斯核产生的特征,不允许学习者在远离训练示例21的情况下很好地进行泛化。传统的选择是手工设计好的特征提取器,这需要相当多的工程技能和领域专业知识。但是,如果可以使用通用的学习过程自动学习好的特性,那么这一切都可以避免。这是深度学习的关键优势。

深度学习体系结构是简单模块的多层堆栈,所有(或大部分)模块都需要学习,其中许多模块计算非线性输入输出映射。栈中的每个模块转换其输入以增加表示的选择性和不变性。通过多个非线性层,比如5到20的深度,系统可以实现极其复杂的输入功能,这些输入同时对细微的细节敏感——将萨摩耶犬与白狼区分开来——并且对背景、姿势、灯光和周围物体等不相关的大变化不敏感。

图1多层神经网络和反向传播a. 多层神经网络(由连接的点表示)可以扭曲输入空间,使数据类(红色和蓝色的线表示)线性可分。请注意,输入空间中的常规网格(如左图所示)也是如何通过隐藏单元进行转换的(如中图所示)。这是一个只有两个输入单元、两个隐藏单元和一个输出单元的说明性示例,但是用于对象识别或自然语言处理的网络包含数万或数十万个单元。转载自C. Olah (http://colah.github.io/)。

b. 导数的链式法则告诉我们两个小效应(x对y的小变化和y对z的小变化)是如何构成的。x的一个小改变Delta;x首先转变成一个小变化Delta;y y,y乘以part;/part;x(即偏导数的定义)。同样,改变Delta;y创建了一个变更Delta;z z。用一个方程到其他给衍生品的链式法则——Delta;x是如何变成Delta;z通过乘法的产物part;x和part;z /part;y /part;x。当x、y和z是向量(导数是雅可比矩阵)时也可以。

c. 用于计算具有两个隐藏层和一个输出层的神经网络中的前向传递的方程,每个输出层构成一个模块,通过该模块可以反向传播梯度。在每一层,我们首先计算每个单元的总输入z,它是下面一层单元输出的加权和。然后对z应用非线性函数f(.)得到该单元的输出。为了简单起见,我们省略了偏置项。非线性函数用于神经网络包括纠正线性单元(ReLU)f(z)=max(0,z),近年来常用的,以及更多的常规的螺线形,如hyberbolic切线,f(z)=(exp(z)minus;exp(minus;z))/(exp(z) exp(minus;z))和物流功能逻辑,f(z)= 1 /(1 exp(minus;z))。

d. 用于计算后向传递的方程。在每个隐藏层,我们计算每个单元的输出的误差导数,这是一个加权和的误差导数的总输入的单位在上面一层。然后我们把输出的误差导数,乘以f(z)的梯度,转换成输入的误差导数。在输出层,通过对成本函数求导,计算出对单位输出的误差导数。这给了ylminus;tl如果单位的成本函数l是, tl的目标价值。一旦part;E /part;zk是已知的,重量的error-derivative wjk在下面的连接层的单元j只是yjpart;E /part;zk。

图2在卷积网络内部。应用于萨摩耶犬图像的典型卷积网络结构的每一层(水平方向)的输出(而不是过滤器)(左下角;RGB(红色,绿色,蓝色)输入,右下角)每个矩形图像是一个特征映射,对应于在每个图像位置检测到的一个学习特征的输出。信息自底向上流动,低层特征充当定向边缘检测器,并为输出中的每个图像类计算一个分数。ReLU,整流线性单元。

反向传播法来训练多层体系结构

从模式识别22,23的早期开始,研究人员的目标就一直是用可训练的多层网络来取代人工设计的特征,但尽管它很简单,直到20世纪80年代中期,人们才广泛了解这个解决方案。结果表明,多层结构可以通过简单的随机梯度下降进行训练。只要这些模块的输入和内部权重是相对平滑的函数,就可以使用反向传播过程计算梯度。这个想法是可以做到的,并且行之有效的,是在20世纪70年代和80年代24-27由几个不同的小组独立发现的。

求目标函数相对于多层模块堆栈的权值的梯度的反向传播过程只不过是导数链式法则的一个实际应用。主要是客观的导数(或梯度)对一个模块的输入可以通过工作从梯度计算对该模块的输出(或输入的后续模块)(图1)。反向传播方程可以应用反复传播梯度通过所有的模块,从顶部的输出(网络生产预测)的底部(外部输入是美联储)。一旦计算出这些梯度,就可以很容易地计算出与每个模块的权重相关的梯度。

深度学习的许多应用都使用前馈神经网络架构(图1),它学习将固定大小的输入(例如,图像)映射到固定大小的输出(例如,每种类别的概率)。为了从一层到下一层,一组单元计算上一层输入的加权和,并将结果传递给一个非线性函数。目前,最受欢迎的非线性函数修正线性单元(ReLU),它只是半波整流器f (z) = max (z, 0)。在过去的几十年,神经网络使用光滑的非线性,如双曲正切(z)或1 / (1 exp (minus;z)),但ReLU通常学习更快的网络有很多层,允许没有无监督预训练28培训的监督网络。不在输入或输出层中的单元通常称为隐藏单元。隐藏层可以看作是以非线性方式扭曲输入的,这样类别就可以被最后一层线性分离(图1)。

在20世纪90年代后期,神经网络和反向传播在很大程度上被机器学习社区所抛弃,而被计算机视觉和语音识别社区所忽视。人们普遍认为学习有用的、多阶段的、没有先验知识的特征提取器是不可行的。特别是,一般认为简单的梯度下降法会陷入局部极小权配置的困境,而局部极小权配置的微小变化不会降低平均误差。

实际上,在大型网络中,较差的本地最小值很少是问题。无论初始条件如何,系统几乎总是能得到质量非常相似的解决方案。最近的理论和经验结果强烈表明,局部极小值一般来说不是一个严重的问题。相反,景观中有大量的鞍点组合在一起,其中坡度为零,而表面在大多数维度上是向上弯曲的,在其余维度29,30上是向下弯曲的。分析似乎表明,只有少数向下弯曲方向的鞍点数量非常多,但几乎所有鞍点的目标函数值都非常相似。因此,算法被困在这些鞍点中的哪一个并不重要。

由加拿大高级研究所(CIFAR)召集的一组研究人员在2006年前后重新引起了人们对深度前馈网络的兴趣(参见31-34)。研究人员引入了非监督学习过程,可以在不需要标记数据的情况下创建多层特征检测器。学习每一层特征检测器的目的是能够重建或建模下一层特征检测器(或原始输入)的活动。通过使用这个重建目标对多层逐渐复杂的特征检测器进行“预处理”,可以将深度网络的权值初始化为敏感值。最后一层输出单元可以添加到网络的顶部,整个深层系统可以使用标准反向传播33-35进行微调。这对于识别手写数字或检测行人非常有效,尤其是在标记数据量非常有限36的情况下。

这种预先训练方法的第一个主要应用是语音识别,它是由于快速图形处理单元(GPU)的出现而成为可能的,GPU便于编程37,并且允许研究人员以10到20倍的速度训练网络。2009年,该方法被用于将从声波中提取的系数的短时间窗口映射到可能由窗口中心的帧表示的各种语音片段的概率集。它在使用少量词汇38的标准语音识别基准测试中取得了破纪录的成绩,并迅速发展成为在大量词汇任务39中取得破纪录的成绩。到2012年,2009年以来的deep net版本已经被许

全文共31323字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[363],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。