英语原文共 6 页
深度神经网络体系结构的研究及其应用
摘要
自2006提出了一种深度信度网络的快速学习算法以来,深度学习技术克服了传统算法依赖手工设计特征的缺点,取得了越来越广泛的研究兴趣。深度学习方法也被发现适用于大数据分析,成功地应用于计算机视觉、模式识别、语音识别、自然语言处理和推荐系统。本文讨论了一些广泛使用的深度学习体系结构及其实际应用。本文综述了四种深度学习体系结构,即自动编码器、卷积神经网络、深度信念网络和受限玻尔兹曼机器。对不同类型的深部神经网络进行了综述,总结了近年来的研究进展。重点介绍了深度学习技术在某些特定领域(语音识别、模式识别和计算机视觉)的应用。最后给出了未来研究主题的列表,并给出了明确的理由。
关键词:深度置信网络;深度学习;卷积神经网络;自动编码器
绪论
机器学习技术在模式识别、自然语言处理和计算学习等领域得到了广泛的应用。利用机器学习技术,计算机被赋予了不需要显式编程就可以行动的能力,构建可以从数据中学习的算法,以及做出数据驱动的决策或预测。在过去的几十年里,机器学习已经给我们的日常生活带来了巨大的影响,例如高效的网络搜索、自动驾驶系统、计算机视觉和光学字符识别。此外,通过采用机器学习方法,人类水平的人工智能(AI)也得到了改善,更多讨论见[101137165]。然而,当涉及到人类信息处理机制(如语音和视觉)时,传统机器学习技术的性能还远远不能令人满意。在人类语音感知和生成系统的深层次层次结构的启发下,深层次学习算法的概念在20世纪末被引入。自2006年辛顿提出了一种新的深度结构学习体系,称为深度信念网络(DBN)以来,在深度学习方面取得了突破[59]。在过去的十年中,深度学习技术得到了快速发展,对信号和信息处理产生了显著的影响。对神经形态系统的研究也支持深层网络模型的发展[75]。与传统的机器学习和人工智能方法相比,深度学习技术最近在语音识别、自然语言处理(NLP)、信息检索、计算视觉和图像分析等方面取得了巨大的进展[91125159]。
深度学习的概念源于对人工神经网络(ANN)的研究[60]。近几十年来,人工神经网络已成为一个活跃的研究领域[63162166167175]。为了建立一个标准的神经网络(NN),必须利用神经元产生真正有价值的激活,并且通过调整权重,神经网络的行为如预期的那样。然而,根据问题的不同,神经网络的训练过程可能需要计算阶段的长因果链。反向传播是一种有效的梯度下降算法,自1980年以来,它在神经网络中发挥了重要作用。它使用基于教师的监督学习方法来训练神经网络。虽然训练精度很高,但在测试数据中应用反向传播的性能可能并不令人满意。由于反向传播是基于具有随机初始点的局部梯度信息,算法经常陷入局部最优解。此外,如果培训数据的大小不够大,NNS将面临过度配置的问题。因此,其他有效的机器学习算法,如支持向量机(SVM)、助推和K-最近邻(KNN)等,都被采用以较低的功耗获得全局最优。2006年,Hinton[59]提出了一种新的培训方法(称为分层贪婪学习),标志着深层学习技术的诞生。分层贪心学习的基本思想是在后续的分层培训之前,对网络进行无监督的预培训。通过从输入中提取特征,减少了数据维数,从而得到了一个紧凑的表示。然后,将这些特性导出到下一层,所有的样本都将被标记,网络将根据标记的数据进行调整。深度学习普及的原因有两方面:一方面,大数据分析技术的发展表明,训练数据中的过度配置问题可以部分解决;另一方面,在无监督学习之前的预训练过程将为网络分配非随机初始值。因此,在训练过程中可以达到较好的局部最小值,从而达到更快的收敛速度。
到目前为止,深入学习技术的研究引起了广泛的关注,并在文献中报道了一系列令人振奋的成果。自2009年以来,IMAGENET的竞争已经吸引了来自学术界和工业界的众多计算机视觉研究团体。2012年,由Hinton领导的研究小组通过使用深度学习方法赢得了Imagenet图像分类的竞争[86]。辛顿的小组第一次参加了比赛,他们的成绩比第二名好10%。谷歌和百度都已经更新了基于Hinton深度学习架构的图像搜索引擎,大大提高了搜索的准确性。百度也于2013成立了深度学习研究所(IDL),并邀请了斯坦福大学副教授Andrew Ng担任首席科学家。2016年3月,谷歌(Google)的深度学习项目(DeepMind)在韩国举行了一场围棋比赛,该项目由人工智能玩家Alphago和世界上最强大的玩家之一Lee Se Dol[140]进行。结果发现,阿尔法戈采用了深度学习技术,表现出惊人的力量,以4:1击败了李世多。此外,深度学习算法在预测潜在药物分子的活性和非编码DNA突变对基因表达的影响方面也表现出突出的性能。
随着计算技术的发展,为人工神经网络提供了一个强大的框架,并提供了深入的监控学习体系结构。一般来说,深度学习算法是由多层次的层次结构组成的,每个层次结构构成一个非线性的信息处理单元。本文只讨论了NNS中的深层次体系结构。在神经网络中采用深层结构的深层神经网络(DNN),如果单层中的层和单元数量增加,则可以表示复杂度更高的函数。给定足够的标记训练数据集和合适的模型,深度学习方法可以帮助人类建立映射函数以便于操作。本文回顾了四种主要的深层结构,并讨论了其它方法(如稀疏编码)。此外,还介绍了深度学习领域的一些最新进展。
本文旨在及时回顾和介绍深度学习技术及其应用。它旨在为读者提供不同深度学习架构的背景,以及这一领域的最新发展和成就。论文的其余部分组织如下。在第2-5节中,分别回顾了四种主要的深度学习体系结构,分别是受限玻尔兹曼机器(RBMS)、深度信念网络(DBN)、自动编码器(AE)和卷积神经网络(CNN)。比较了这些深层次的体系结构,讨论了这些算法的最新发展。第6节重点介绍了这些深层架构的应用。结论和未来的研究主题介绍在第7节。
第2章 深度学习体系结构:受限玻尔兹曼机器
在这一部分中,简要回顾了风险管理系统。RBMS由于其历史重要性和相对简单性,在深度学习网络中得到了广泛的应用。RBM是斯摩棱斯基首次提出的概念,自2006年辛顿发表其著作[59]以来,RBM已变得突出。RBMS已经被用来生成神经网络的随机模型,这些模型可以了解输入的概率分布。RBMS由Boltzmann机器(BMS)的变体组成。BMS可以解释为具有双向连接的随机处理单元的NNS。由于很难了解未知概率分布的各个方面,RBMS被提议简化网络拓扑结构并提高模型的效率。RBM是一类具有随机可见单元的马尔可夫随机ELD和另一层中的随机可观测单元。
2.1 目的
如图1所示,神经元被限制在RBM中形成二部图。可以看出,可见单元和隐藏单元之间存在完全连接,而相同层之间的单元之间不存在连接(165)。为了训练RBM,采用吉布斯采样器。从一个层中的随机状态开始,执行吉布斯采样,我们可以从RBM生成数据。一旦给出了一个层中单元的状态,其他层中的所有单元都将被更新。这个更新过程将持续到达到平衡分布。接下来,通过最大化RBM的可能性,获得RBM内的权重。具体来说,根据训练数据的对数概率梯度,可根据以下内容更新权重:
pv omega; v h v hpart;log ( ) part; = 〈 〉 minus; 〈 〉 , ij i j i j 0 0 0 infin; infin;(1)
式中,omega;i j表示可见单元i和隐藏单元j之间的权重。vh ij 00和vh ijinfin;是可见单元和隐藏单元分别位于最低层和最高层时的相关性。详细证据见[59]。应该注意的是,在使用基于梯度的对比发散(CD)算法时,培训过程将更加有效。Hinton于2002年开发了RBM训练的CD算法[56]。算法1给出了K步CD算法的实现过程。假设模型和目标分布之间的差异不大,我们可以使用吉布斯链生成的样本来近似负梯度。理想情况下,随着链长的增加,其对可能性的贡献会减少并趋于零[12]。然而,在[147]中,我们可以发现梯度的估计不能代表梯度本身。此外,大多数CD分量和相应的对数似然梯度具有相等的符号[45]。因此,在[115]中提出了一种更实用的算法,称为持续对比发散。在这种方法中,作者建议追踪持续链的状态,而不是在给定的数据向量上搜索吉布斯-马尔可夫链的初始值。持续链中隐藏和可见单元的状态将在每个权重更新后更新。这样一来,即使是很小的学习率也不会在更新和持续链状态之间造成很大差异,同时带来更准确的估计。
2.2结构与算法
目前,RBMS在主题建模、降维、协同过滤、分类和特征学习等各种应用中发挥着重要作用。例如,RBM可用于对数据进行编码,然后应用于回归或分类的无监督学习。此外,RBMS可以用作生成模型。我们可以用贝叶斯定律计算可见和隐藏单元pvh的联合分布。也可以用RBMS计算单个机组pvh的条件概率。因此,RBM也可以用作识别模型。在分类任务的预训练过程中,一般采用RBMS作为特征抽取器。然而,RBMS在无监督学习中提取的特征在监督学习过程中可能是不有用的。此外,参数的选择,这对学习算法的性能是至关重要的,也将带来DI文化。为了解决这些问题,在2008,Larochelle和孟加拉国提出了判别式受限Boltzmann机器(DRBMS)。此外,对于大数据集的在线学习,混合DBRMS(DRBMS)模型具有生成学习和识别学习的综合优势。然而,在多标签分类任务中,RBMS的性能不令人满意。MNIH等[115]提出了所谓的条件限制Boltzmann机器(CRBMS),以进一步提高性能。同时,在高维时间序列中,CRBMS可以作为非线性生成模型。在[153]中,使用实值可见变量和二元潜在变量建立了无向模型。在这个模型中,最后几个时间步的可见变量可以直接受到每个时间步的潜在变量和可见变量的影响。利用这一特性,CRBMS可以更有效地进行在线推理。此外,从时间序列中学习,CRBMS能够获得丰富的分布式表示,以保证精确推理的效率。
最近,ELFWing基于一种新的识别学习算法开发了一种自包含的DRBM(称为FE-RBM)。在FE-RBM中,根据RBM的负自由能计算任何输入和类向量的输出。采用随机梯度下降法,通过最小化均方训练误差,达到学习目标。此外,在前人研究的启发下,基于网络规模对自由能进行了定标,以提高FE-RBMS中函数逼近的鲁棒性。当RBMS应用于图像和语音识别等领域时,数据(55)中的噪声会严重降低其性能。2012年,Tang等人[152]介绍了一种最先进的模型,即鲁棒玻尔兹曼机器(RobM),可用于处理视觉识别中的噪声和闭塞。使用RobM,可以通过消除损坏像素的影响来实现更好的泛化。采用无监督倾斜算法对噪声下的无标记数据进行训练,机器人模型还可以学习遮挡器的空间结构。与传统算法相比,机器人在图像修复和人脸识别等各种应用中表现出了更高的性能。作为玻尔兹曼分布的一个关键因素,温度首次在Li等人的DBN图形模型中被考虑到。〔97〕。提出了基于温度的限幅玻尔兹曼机器(TRBMS),其中温度作为一个独立的参数进行调节。理论分析表明,温度是控制隐藏层内神经元选择性的关键因素。通过合理设置逻辑函数的锐度参数,可以提高所提出的TRBMS的性能。由于引入了额外的灵活性,TRBMS可以获得更精确的结果。此外,该研究还从物理角度对RBMS进行了一些深入的研究,表明温度与一些真实的NNS之间可能存在某种关系。
第3章 深度学习架构:深度置信网络
3.1目的
如前一节所述,隐藏变量和可见变量不是相互独立的[165]。为了研究这些变量之间的依赖性,2006年,辛顿通过堆叠一组RBM构建了DBN。具体来说,DBN由多个随机变量和潜在变量组成,可以看作是贝叶斯概率生成模型的一种特殊形式。与人工神经网络相比,DBN更有效,尤其是在应用于未标记数据的问题时。
3.2结构与算法
模型示意图如下图2所示。从图2可以看出,在DBN中,每两个相邻层形成一个RBM。每个RBM的可见层连接到先前RBM的隐藏层,并且前两层是非定向的。上下层之间的定向连接是自上而下的。DBN中不同层次的RBM按顺序训练:先训练较低的RBM,然后再训练较高的RBM。在顶部RBM提取特征后,它们将传播回下层[30]。与单个RBM相比,叠加模型将增加对数似然的上界,这意味着更强的学习能力[5]。
DBN的培训过程可分为两个阶段:预培训阶段和最终调整阶段。在预训练阶段,基于无监督学习的训练从下向上进行特征提取;而在最终调整阶段,基于监督学习的上向下算法用于进一步调整网络参数。我们注意到,DBN性能的提高主要归因于预训练阶段,在该阶段,网络的初始权重从输入数据的结构中学习。与随机初始化的权值相比,这些权值更接近全局最优,因此可以带来更好的性能。
前一节介绍的CD算法可用于预训练DBN。然而,这种性能通常不令人满意,尤其是当输入数据被钳制时。为了克服这一问题,引入了一种逐层贪婪学习算法,该算法将DBN在时间复杂度与网络大小和深度呈线性关系时的权重进行优化[59]。在贪婪的逐层学习算法中,构成DBN的RBM按顺序进行训练。具体来说,最低RBM的可见层首先以H(0)作为输入进行训练。然后将可见层中的值导入到隐藏层,在该层中计算隐藏变量的激活概率phv。在前一个RBM中获得的表示将用作下一个RBM的训练数据,并且此训练过程将继续,直到所有层都被遍历。由于该算法只需一步逼近似然函数,大大缩短了训练时间。通常在深层网络中出现的不足问题也可以在预培训过程中解决。这
资料编号:[5086]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。