通过深度强化学习实现人类水平的控制
作者:Volodymyr Mnih1*, Koray Kavukcuoglu1*, David Silver1*, Andrei A. Rusu1, Joel Veness1, Marc G. Bellemare1, Alex Graves1, Martin Riedmiller1, Andreas K. Fidjeland1, Georg Ostrovski1, Stig Petersen1, Charles Beattie1, Amir Sadik1, Ioannis Antonoglou1, Helen King1, Dharshan Kumaran1, Daan Wierstra1, Shane Legg1 amp; Demis Hassabis1
国籍:美国等
出处:Nature:7540
强化学习理论[1]提供了一种基于动物行为的心理学[2]和神经科学[3]的标准解释,即智能体如何优化其对环境的控制。然而,为了在接近真实世界复杂性的情况下成功地使用强化学习,智能体面临着一项困难的任务:它们必须从高维感官输入中获得有效的环境表示,并泛化之前的经验到新的环境中。值得注意的是,人类和其他动物似乎通过协调强化学习和层次化的感知处理系统[4-5]来解决这个问题。前者是由大量神经数据证明的,这些数据揭示了多巴胺能神经元发出的相位信号与时间差分强化学习算法之间的显著相似之处。虽然强化学习算法已经在各种领域[6-8]取得了一些成功,但它们的适用性之前仅限于那些能够人工提取有用特征的领域,或低维状态空间完全可观察的领域。这里我们利用训练深度神经网络[9-11]新开发的一种称为深度Q-网络,它可以通过端到端强化学习直接从高维感官输入中学习到成功的策略。我们在富有挑战性的Atari 2600经典游戏[12]中进行了测试。我们证明了深度Q-网络,在只接收像素和游戏分数作为输入,使用相同的算法、网络架构和超参数情况下,在49款游戏中,超越了之前所有算法的性能,达到了与人类游戏专业测试员相当的水平。这项工作将高维感官输入和行动之间的鸿沟连接起来,从而产生了第一个能够通过学习从而在各种具有挑战性的任务中脱颖而出的智能体。
我们致力于开发能胜任各种具有挑战性的任务的单一算法——通用人工智能[13]的核心目标,而以前的努力[8,14,15]都没有实现。为了实现这一目标,我们开发了深度Q-网络(DQN),它能够将强化学习与一类称为深度神经网络的人工神经网络[16]结合起来。值得注意的是,在深度神经网络[9-11]的最新进展中,多层的神经元被用来构建更加抽象的数据表达,使得人工神经网络可以直接从原始感官数据中学习物体类别等概念。我们使用了一种特别成功的结构——深度卷积网络[17],它使用多层的卷积滤波器来模拟感受野的作用——灵感来自于Hubel和Wiesel在早期视觉皮层前馈处理方面的开创性工作[18]——从而利用图像中存在的局部空间相关性,建立具有鲁棒性的视角改变和比例缩放等的自然转换。
我们的任务是让智能体通过一系列的观察、行动和奖励与环境进行交互。智能体的目标是选择一种能够最大化累积未来奖励的方式。更正式地说,我们使用一个深度卷积神经网络来近似最优动作值函数。
这是行为策略在进行观察并采取行动后,所能达到的在每一个时间步长上被折中后的最大奖励。(见方法[19])
众所周知,当使用非线性函数近似器,例如用一个神经网络来表示动作值Q函数[20]时,强化学习是不稳定的,甚至会发散。这种不稳定性有几个原因:可观测序列的相关性,对Q值的小更新可能会显著改变策略,进而改变数据的分布,以及行动值与目标值之间的相关性。我们用一种新的Q-学习的变体来解决这些不稳定性,它使用了两个关键思想。第一,我们使用了一种生物学启发而来的机制,称为经验重放[21-23],它能将数据随机化,从而消除了观察序列中的相关性,并且平滑了数据分布的变化(详见下文)。第二,我们使用迭代更新方法,仅定期性将动作值向目标值进行调整,从而减少与目标之间的相关性。
虽然在强化学习设置中存在其他稳定的方法来训练神经网络,如神经拟合Q-迭代[24],这些方法涉及从头开始训练神经网络重复数百次迭代。因此,这些方法不如我们的算法,效率太低而不能成功地用于大型神经网络。我们使用如图 1所示的深度卷积神经网络对近似值函数进行参数化,其中为Q-网络在迭代步数为时的参数(即权值)。为了执行经验重放,我们在数据集的每个时间步长上存储智能体的经验。在学习过程中,我们在经验的采样点(或小批量样)上应用Q-学习更新,这些样本是从存储的样本池中随机抽取的。Q-学习在迭代第步更新时使用以下损失函数:
其中,是决定智能体视野的折中因子,是Q-网络在第次迭代时的参数,是用于计算第次迭代目标的网络参数。目标网络参数只在每C步更新Q-网络参数,并且在两次更新过程中保持不变(见方法)。
图 1 卷积神经网络示意图
体系结构的细节在方法中解释。神经网络的输入包含一个84times;84times;4预处理产生的图像,随后三个卷积层(注:蜿蜒蓝线表示每个过滤器在输入图像上滑动)和两个全连接层,每个有效操作后都有一个输出。每一隐藏层后面都有一个非线性整流器(即)
为了评估我们的DQN智能体,我们利用了Atari 2600平台,该平台提供了很多不同的任务,这些任务非常困难且是针对人类玩家的。我们使用了相同的网络架构,超参数值和学习过程——使用高维数据(210times;160的60 Hz彩色视频)作为输入,来证明我们的方法可以非常鲁棒的成功在各种游戏中学习到操作策略,并且学习过程仅仅基于感官输入依赖非常少的先验知识(即仅仅是视觉图像输入,以及每款游戏中可用的动作个数,而不是它们的对应关系;见方法)。值得注意的是,我们的方法能够以稳定的方式使用强化学习信号和随机梯度下降来训练大型神经网络——通过两个学习指标的随时间变化来说明(智能体的每次平均得分和平均预测Q值;详见图 2及补充讨论)。
图 2 智能体随训练的平均得分和平均预测行动值曲线
a,每一分是智能体在《太空入侵者》中执行520 k帧的贪婪策略()后每次获得的平均分数。b,Sequest每次的平均得分。c,《太空入侵者》中固定状态的平均预测行动价值。曲线上的每一点都是在现有状态集合上计算的行动价值Q的平均值。需要注意的是,Q值由于奖励的削减而被缩放。d,Sequest的平均预测行动价值。详见补充讨论。
我们将DQN与强化学习文献中表现最好的方法在49个能得到结果[12,15]的游戏上进行了比较。除了学习过的智能体,我们还报告了一个人类游戏专业测试者控制下的得分,以及一个随机选择行动的策略所得的分数(图 3,在y轴上用100%(人类)和0%(随机)表示;见方法)。我们的DQN方法在43个游戏中比现有最好的强化学习方法表现得更好,且没有考虑其他方法所使用的任何关于Atari 2600游戏的额外先验知识(例如参考文献12、15)。此外,我们的DQN智能体在49款游戏中的表现与人类游戏专业测试人员相当,在超过一半的游戏(29个游戏;见图 3)中获得了超过人类75%的分数。在其他模拟中(参见补充讨论),我们演示了DQN智能体的单独核心组件的重要性——重放存储器、分离的目标Q-网络和深度卷积网络体系结构——通过禁用它们来证明对性能的不利影响。
图 3 DQN智能体与文献中最好的强化学习方法的比较
DQN的表现是基于专业的人类游戏测试人员(即100%级别)和随机玩法(即0%级别)。需要注意的是,DQN的标准化性能以百分比表示,计算方法为:100times;(DQN评分 - 随机玩法评分)/(人类评分 - 随机玩法评分)。可以看出DQN在几乎所有的游戏中优于竞争方法,在大多数游戏中水平大致相当或优于人类游戏专业测试员(表现在水平的75%及以上)。禁用了人类玩家和智能体的音频输出。从不同的初始条件开始,错误条表示30个评估集中的标准差。
我们接下来通过使用一种被称为“t-SNE”[25]的高维数据可视化技术(图 4),在太空入侵者游戏中利用智能体的成功表现来证明DQN网络学习到了良好的表达。正如所期望的,t-SNE算法倾向于将感知相似状态的DQN表示映射到附近的点。有趣的是,我们还发现t-SNE算法为DQN表示的状态生成了类似的嵌入,这些状态在预期奖励方面很接近,但感知上不相同(图 4,右下、左上和中间),这与网络能够从高维感官输入中学习支持自适应行为的表征相一致。此外,我们还证明了DQN学习的表示生成的策略是从数据中产生的,而不是学习数据本身——在模拟中,我们把人类和智能体玩游戏时经历的游戏状态作为神经网络的输入,记录最后一层隐含层的状态,并可视化t-SNE算法生成的嵌入。
图 4 在DQN分配给玩《太空入侵者》时的游戏状态的最后一层隐含层的二维t-SNE嵌入
该图像是通过让DQN智能体玩2小时真实游戏时间,并在DQN分配给每个体验过的游戏状态的最后一层隐藏层上运行t-SNE算法而生成的。点数是根据DQN为相应游戏状态(从深红色(最高V)到深蓝色(最低V))预测的状态值(V,状态的最大期望奖励)着色的。所选择的点对应的屏幕截图将显示出来。DQN智能体会预测完整屏幕(右上截屏)和几乎完成屏幕(左下截屏)的高状态值,因为它知道完成一个屏幕会导致一个满是敌舰的新屏幕。部分完成的屏幕(下方截图)会被分配较低的状态值,因为可用的即时奖励较少。右下角、左上角和中间的屏幕在感知上不像其他例子那么相似,但仍然映射到附近的表现形式和相似的值,因为橙色掩体在接近关卡尽头时并不具有重要意义。
值得注意的是,DQN网络所擅长的游戏在本质上非常不同,从横向卷轴射击游戏(River Raid)到装箱游戏(Boxing)以及三维赛车游戏(Enduro)。事实上,在某些游戏中DQN网络能够发现一个相对长期的策略(例如,在Breakout中智能体学习到优化策略,即在靠近的墙的周围先挖一条通道,让球从通道中穿越过去进入砖块的后面,从而破坏大量的砖块)。尽管如此,包括DQN在内的所有现有智能体(例如Montezumarsquo;s Revenge),需要更多时间规划策略的游戏仍然是一大挑战。
在这项工作中,我们证明了一个单一的体系结构可以成功地在一系列不同的环境中学习控制策略,且这种学习只需要非常少的先验知识,对每个游戏只接收像素和游戏分数作为输入,使用相同的算法、网络体系结构和超参数,以及人类游戏者也需要的先验知识。与以前的工作相比[24,26],我们的方法包含了“端到端”强化学习,这种学习使用奖励不断地在卷积神经网络中形成对环境显著特征的表示,以促进价值评估。这一原则利用了神经生物学的证明,即知觉学习过程中的奖赏信号可能会影响灵长类视觉皮层的表征特征[27,28]。
值得注意的是,强化学习与深度网络架构的成功集成主要依赖于我们的重放算法[21-23],它包含最近经历的转变的存储和表示。大量证据表明,在哺乳动物的大脑中海马体可能支持这种过程的物理实现,在离线时期[21,22](例如,清醒休息),最近经历的轨迹被压缩后重新激活,以提供一个推断的机制,价值函数可以通过与基底神经节的相互作用有效更新。在未来,探索将经验回放的内容偏向于突出事件的潜在用途是很重要的,这是一种以经验观察到的海马[22]重放[29]为特征的现象,并与强化学习中的一种叫做“按优先级清除”[30]概念有关。综上所述,我们的工作揭示了利用最先进的机器学习技术和受生物启发的机制来创造能够学习并掌握各种具有挑战性的任务的智
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[596315],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。