连续控制和深度加强学习外文翻译资料

 2022-03-23 21:56:32

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


连续控制和深度加强学习

Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, NicolasHeess,Tom Erez, Yuval Tassa, David Silver amp; Daan Wierstra

Google Deepmind

London, UK

{fcountzero, jjhunt, apritzel, heess,etom, tassa, davidsilver, wierstrag} @ google.com

摘要:

我们将深层次学习的成功背后的想法调整为持续的行动领域。我们提出一个基于确定性策略梯度的actor-critic,无模型算法,该算法可以在连续动作空间上运行。运用相同的学习算法,网络结构和超参数,我们的算法强大地解决了20多个模拟物理任务,包括经典诸如小推车摆动,灵巧操纵,腿式运动等问题和汽车驾驶。我们的算法能够找到策略,其性能与具有完全访问动态的规划算法所发现的策略相当的域名及其衍生品。 我们进一步证明,对于许多人来说算法可以学习策略“端到端”的任务:直接从原始像素输入

1介绍

人工智能领域的主要目标之一是从未经处理的高维感官输入解决复杂任务。 最近,通过结合传感处理深度学习(Krizhevsky等,2012)的进展和加强学习,取得了重大进展,形成了“Deep Q Network”(DQN)算法(Mnih et al。,2015) 能够

使用未处理的像素进行输入的许多Atari视频游戏的人类级别性能。 为此,使用深度神经网络函数逼近器来估计动作值函数。

然而,DQN解决了高维观测空间的问题,但它只能处理离散的和低维度的动作空间。 许多感兴趣的任务,最显着的是物理控制任务,具有连续(实值)和高维动作空间。 DQN不能直接应用于连续域,因为它依赖于找到最大化动作动作值函数,它在连续值情况下需要在每一步都进行迭代优化

将深度强化学习方法(如DQN)适用于连续域的一种显而易见的方法是简单地将动作空间离散化。然而,这具有许多限制,最明显的是维度的不好:行动的数量随着自由度的数量呈指数增长。例如,具有最粗糙离散化的7自由度系统(如在人体手臂中) 对于每个关节导致一个具有维度的动作空间:。 对于需要对行为进行精细控制的任务来说,情况更糟,相应更精细的离散化,导致离散操作数量的爆炸。这种大动作空间难以有效探索从而成功地进行训练。在这种情况下类似DQN的网络可能是棘手的。 另外,行为空间的简陋离散无用地抛弃了关于行动领域结构的信息,而行动领域结构的信息对解决许多问题可能是必不可少的。

关于确定性政策梯度(DPG)算法(Silver等,2014)(本身类似于NFQCA

(Hafner&Riedmiller,2011)和类似的想法可以在(Prokhorov等人,1997)中找到)。 然而,正如我们下面所示,对于具有挑战性的问题,这种使用神经函数逼近器的actor-critic方法的幼稚应用是不稳定的。

在这里,我们将actor-critic的方法与最近Deep Q Network的成功案例相结合

(DQN)(Mnih等,2013; 2015)。 在DQN之前,普遍认为使用大型非线性函数逼近器的学习值函数是困难和不稳定的。 DQN能够以稳定和强大的方式使用这些函数逼近器学习值函数,这归功于两项创新:1.网络通过来自重播缓冲区的样本进行关闭策略训练,以最小化样本之间的相关性; 2.网络接受目标Q网络的训练,在时间差异备份期间提供一致的目标。 在这项工作中,我们利用了同样的想法,以及批量标准化(Ioffe&Szegedy,2015),这是近期深度学习的进展。

为了评估我们的方法,我们构建了各种具有挑战性的物理控制问题。涉及复杂的多关节运动,不稳定和丰富的接触动力学以及步态行为。其中包括典型的问题,例如车轮摇摆问题,以及许多新的领域。 机器人控制的长期挑战是直接从原始感官输入(如视频)中学习行动策略。 因此,我们在模拟器中放置一个固定的视点相机,并尝试使用低维度观察(例如关节角度)和直接来自像素的所有任务。

我们称为Deep DPG(DDPG)的无模型方法可以使用相同的超参数和网络结构,使用低维观测(例如笛卡尔坐标或关节角度)学习我们所有任务的竞争策略。 在很多情况下,我们也能够直接从像素学习良好的策略,同时保持超参数和网络结构的不变。

该方法的一个关键特征是它的简单性:它只需要一个简单的actor-critic体系结构和学习算法,只需很少的“移动部分”,便于实施和扩展到更困难的问题和更大的网络。 对于物理控制问题,我们将我们的结果与计划人员(Tassa等人,2012)计算出的基线进行比较,该基线可以完全访问底层模拟动态及其衍生物(请参阅补充信息)。 有趣的是,DDPG有时甚至可以找到超出规划人员绩效的政策,在某些情况下,即使从像素中学习(规划人员总是计划基础低维度状态空间)。

2 背景

我们考虑一个标准的强化学习设置,它包括一个代理以离散的时间步长与环境E进行交互。 在每个时间点t,代理人收到观察值,采取行动并收到标量奖励。 在这里考虑的所有环境中,这些行为都是实际值。 一般来说,环境可能会被部分观察到,因此观察的整个历史,行动对 可能需要描述状态。 在这里,我们假设环境是完全观察的,所以。

代理的行为是由一个策略pi;定义的,该策略将状态映射到行为的概率分布上pi;:S→P(A)环境E也可能是随机的。 我们将它建模为一个具有状态空间S,动作空间A=,初始状态分布p(),转移动力学p()和奖励函数r()

来自状态的返回值,被定义为折扣后未来回馈值总和Rt =折扣因子gamma;[0,1]。 请注意,回报取决于所选择的行动,因此取决于策略pi;,并且可能是随机的。 强化学习的目标是学习一个策略,使得从开始分配的预期回报最大化。 我们表示策略pi;的折扣状态遵循分布。

动作值函数用于许多强化学习算法。 它描述了在状态时采取行动之后的预期回报,并使用策略pi;。

(1)

在强化学习中的许多方法利用了被称为贝尔曼方程的递归关系

(2)

如果目标策略是确定性的,我们可以将其描述为一个函数:Slarr; A避免内在期望:

(3)

期望仅取决于环境。 这意味着有可能学习关闭策略,使用从不同的随机行为策略beta;生成的转换。Q-learning(Watkins&Dayan,1992)是一种常用的关闭策略算法,它使用贪婪策略= arg maxQ(s, a)。 我们考虑由参数化的函数逼近器,我们通过最小化损失来进行优化:

(4)

当:

(5)

取决于,这个经常被忽略。

过去通常避免使用大型的非线性函数逼近器来学习价值或行为 - 价值函数,因为理论性能保证是不可能的,并且实际上学习趋于不稳定。 最近,(Mnih等,2013; 2015)改编了Q学习算法,以便有效地使用大型神经网络作为函数逼近器。 他们的算法能够学习如何使用像素来玩Atari游戏。 为了扩展Q学习,他们引入了两个主要的改变:使用重播缓冲区和用于计算的单独目标网络。 我们在DDPG的背景下使用这些内容,并在下一部分解释它们的实现。

3 算法

将Q学习直接应用于连续动作空间是不可能的,因为在连续的空间中,发现贪婪策略需要在每个时间步进行优化; 这种优化过于缓慢,不适用于大的,无约束的函数逼近器和非平凡的动作空间。 相反,在这里我们使用了基于DPG算法的 actor-critic(Silver等人,2014)。

DPG算法维护一个参数化的函数,它通过将状态确定性地映射到特定的动作来指定当前的策略。 Ctitic Q(s, a)在Q学习中使用Bellman方程学习。 通过将链规则应用于从起始分布J和actor参数的预期回报来更新参与者。

(6)

Silver等人(2014)证明,这是策略梯度,策略表现的梯度与Q学习一样,引入非线性函数逼近器意味着不再保证收敛。 然而,为了学习和推广大型状态空间,这样的近似者看起来是必不可少的。 NFQCA(Hafner&Riedmiller,2011)使用与DPG相同的更新规则,但是使用神经网络功能逼近器,使用批量学习来保持稳定性,这对于大型网络来说是棘手的。 NFQCA的minibatch版本不重置政策,每次更新(需要扩展到大型网络)都等同于我们在此比较的原始DPG。 我们的贡献是在DQN的成功启发下对DPG进行修改,使其能够使用神经网络函数逼近器在线状态和动作空间中进行学习。 我们将我们的算法称为Deep DPG(DDPG,算法1)。

当使用神经网络进行强化学习时,一个挑战是大多数优化算法都假设样本是独立且相同分布的。 很明显,当样本是在环境中顺序探索时产生的,这个假设不再成立。 此外,为了有效利用硬件优化,学习minibatches而不是联机是至关重要的。

和DQN一样,我们使用重播缓冲区来解决这些问题。 重播缓冲区是有限大小的缓存R.根据勘探策略和元组从环境中采样转换()被存储在重放缓冲区中,当重放缓冲区满时,最旧的样本被丢弃,在每个时间步,通过从缓冲区统一取样一个小批次来更新actor和critic,因为DDPG是一个关闭策略算法, 重放缓冲区可能较大,从而允许通过一组不相关转换进行学习。

用神经网络直接实现Q学习(方程4)在许多环境中被证明是不稳定的。由于更新的网络Q(s,a|)也用于计算目标值(等式5),所以Q更新易于发散。我们的解决方案与(Mnih et al。,2013)中使用的目标网络类似,但是针对actor-critic并使用“软”目标更新进行了修改,而不是直接复制权重。我们分别创建了用于计算目标值的演员和评论者网络的副本Qrsquo;(s,a|)和。然后通过让这些目标网络慢慢跟踪学习网络来更新这些目标网络的权重:larr; 当1.这意味着目标值被限制缓慢变化,极大地提高了学习的稳定性。这个简单的变化带来了相对不稳定的问题。学习动作价值函数更接近监督学习的情况,这是一个存在鲁棒解决方案的问题。我们发现有两个目标和需要有稳定的目标我才能始终如一地训练评criti而没有分歧。这可能会减慢学习速度,因为目标网络会延迟价值估计的传播。但是,实际上我们发现这一点远远超过了学习的稳定性。

当从低维特征向量观测中学习时,观测的不同组分可能具有不同的物理单位(例如,位置与速度),并且范围可能在不同的环境中变化。 这可能使网络难以有效地学习,并且可能难以找到在具有不同尺度的状态值的环境中泛化的超参数。

解决此问题的一种方法是手动缩放特征,以使它们跨环境和单位处于类似范围内。我们通过调整最近的一项名为批量标准化的深度学习技术来解决这个问题(Ioffe&Szegedy,2015)。该技术对小批量样本中的每个维度进行归一化,以得到单位均值和方差。另外,它在测试期间(在我们的情况下,在勘探或评估期间)保持均值和方差的运行平均值以用于标准化。在深度网络中,它用于最小化训练期间的协方差变化,通过确保每层接收白化输入。在低维情况下,我们在状态输入和层的所有层上使用批量标准化。网络和动作输入之前Q网络的所有层(网络细节在补充材料中给出)。通过批量标准化,我们能够跨不同类型的单元有效地学习许多不同的任务,而无需手动确保单元在设定的范围内。

解决此问题的一种方法是手动缩放特征,以使它们跨环境和单位处于类似范围内。我们通过调整最近的一项名为批量标准化的深度学习技术来解决这个问题(Ioffe&Szegedy,2015)。该技术对小批量样本中的每个维度进行归一化,以得到单位均值和方差。另外,它在测试期间(在我们的情况下,在勘探或评估期间)保持均值和方差的运行平均值

全文共12718字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15558],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。