英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
在线学习控制机构和强化学习
IEEE的高级成员Jennie Si和IEEE的成员Yu-Tsung Wang
摘要-本文重点介绍基于增强学习或更具体的神经动态规划的基本原理开发通用在线学习控制系统的系统化处理。这种在线学习系统在两个方面提高了其随时间的性能。首先,它通过来自外部环境的强化信号从其自身的错误中学习,并试图加强其行动以改善未来的性能。第二,与正强化相关联的系统状态通过网络学习过程被记忆,其中在未来,类似的状态将更积极地与导致积极强化的控制动作相关联。本文将介绍在线学习控制设计的成功的例子并且将为学习系统中的各个组件导出实时学习算法。
本文将提供一些分析,以给出在线学习控制系统的每个模块中学习过程的准则。在线学习控制器的性能通过其学习速度,学习成功率和满足控制目标的程度来测量。整体学习控制系统性能将在一级倒立摆平衡问题中的单摆向上摆动和平衡任务,以及更复杂的三连杆倒立摆的平衡问题上进行测试。
关键词 - 神经动态规划(NDP),在线学习,强化学习。
1.介绍
我们研究了一类学习决策和控制问题,在随时间的优化性能测量方面具有以下约束。 首先,不能先验地得到与学习者交互的环境或系统的模型。 环境/系统可以是随机的,非线性的,并且可以改变。 第二,学习是在与环境互动的同时进行的。 第三,即使来自环境的测量可从一个决策和控制步骤到下一个决策和控制步骤,但是来自所生成的决策和控制序列的学习过程的最终结果可能仅作为指示性的“成功”或“ 失败”的标志。
动态规划已经应用于不同的工程领域,如:研究学,经济学等,多年[2],[5],[6],[22]。 它为非线性随机动态系统提供最优的解决方案。然而,众所周知,对于许多重要问题,动态规划的计算成本非常高,作为“维数灾”的结果[8]。 应用中还有其他的复杂性,包括用户提供的明确的性能测量和系统的随机模型[2]。 然而增量优化方法有利于近似最优成本和控制策略[3],[11]。
强化学习具有很好的直观性,并且在过去吸引了相当大的关注。 但最近才通过实现时间差分(TD)法取得了重大进展[1],[16],[21]。 最值得注意的结果是TD-Gammon计划,它已经在学会了玩水果篮并且水平达到了大师级[17] - [19]。 有趣的是, Gammon的发展历史也反映了各种神经网络学习范式的潜力和局限性。 随着TD-Gammon的成功,TD算法无疑成为了在马尔可夫环境(如游戏)中强大的学习方法。但是如何确保在更通用的环境中成功学习呢? 在20世纪70年代提出了启发式动态规划(HDP)[22],并且在20世纪90年代初[23] - [25]以适应性评价设计的名义确立了神经动态规划。 HDP的原始方法基本上与使用TD方法的强化学习(RL)的公式相同。具体地,评价网络“评价”所生成的动作值,以通过传播来自评价和预测网络的两个连续估计之间的时间差来优化未来的“回报值”。 该公式完全适用贝尔曼方程。 即使在开始时具有相同的意图,两种方法通过开始产生动作的方式来区分。HDP和自适应评价一般训练网络以将输入状态与动作值相关联。 另一方面,基于TD的Gammon计划以及Q-学习选择了搜索算法来确定最佳策略,并且因此在初始动作网络训练期间避免额外的错误,并且以搜索速度付出代价。
现有的适应性评价设计[26]可以分为:(1)HDP; (2)双启发式动态规划(DHP); 和)(3)全球化双启发式动态规划(GDHP)。 这三种基本设计范例的变化也是可用的,例如上述架构的动作依赖(AD)版本。 AD指的是动作值是评价网络的附加输入的情况。 操作相关变体从原来的三个范式将在其特定架构前面用缩写“AD”表示。 例如,ADHDP和ADDHP分别表示“动作依赖启发式动态规划”和“动作依赖启发式动态规划”。我们提出的在线学习系统与ADHDP最相关。 再次,适应性评价设计的基本思想是调整评价网络的权值,使逼近函数满足修改的贝尔曼方程。 在该框架中,不是找到确切的最小值,而是提供用于求解以下等式的近似解:
其中是在时间产生的即时成本,0是用于平衡的启发式项[24]。 为了在评价网络中适应,必须事先知道(1)的右手侧的目标。 为此,可以等待时间步长,直到下一个输入变为可用。 因此,可以通过评价网络来计算时间。
HDP和DHP之间的一个主要区别在于评价网络的目标。 在HDP中,评价网络直接输出,而DHP的输出是代价函数的梯度。 由于DHP直接建立时间上的导数项,它减少了由反向传播引入误差的概率。 GDHP是DHP和HDP的组合,与评价网络同时近似和。因此,预期GDHP的性能优于DHP和HDP。 然而,GDHP的计算和实现的复杂性很高。 二阶导数项需要在每个时间步长计算, [12]和[13]中的分析和仿真结果与此观察结果一致。
自适应评价设计,如HDP,DHP和GDHP,以及它们的行动依赖版本已被应用于自动着陆问题[12]。 在实现中,HDP和ADHDP的评价网络用于近似。 为了在时间获得的值,通过使用模型网络来预测状态和动作。 模型网络近似给定状态和动作的动力学输出以及模型网络输出。 在[12]中,模型网络被离线训练。 [12]的结果表明GDHP和DHP是更好的设计比HDP和ADHDP自动着陆问题。 用风切变训练GDHP和DHP的自动着陆器成功地在所有600个试验中占73%,而HDP和ADHDP的低于50%。
从前面的讨论中,我们还可以通过是否在学习者中使用模型来分类适应性评价设计,如[26]所示。 注意,在自适应评价器设计中,在来自Bellman方程的反向传播路径中存在两个偏导数项。 它们是和。当在没有模型网络(即,双网络设计)的情况下实现自适应评论设计时,简单地忽略第二偏导数项。 省略此项所需要的代价可能很高。 [12]和[13]中的结果同意这一观点。 在诸如DHP和GDHP的后续实现中,采用模型网络来考虑项。
图1:神经动态规划的实现示意图。 实线表示信号流,而虚线是参数调谐的路径
我们在本文中提出的方法与ADHDP相似。 一个主要的区别是,我们不使用系统模型来预测未来的系统状态值,从而预测下一个时间步长的成本。 相反,我们存储以前的值。 与当前的值一起,我们可以获得在训练中的时间差。 因此,我们通过牺牲学习的准确性通过引入更多的计算负担包括附加的系统模型网络来解决忽略项的困境。 在本文中,我们提出了一个系统来分析我们提出的神经动态规划(NDP)设计,包括两个网络,动作网络和评价网络作为构建模块。在接下来的两节中,我们首先介绍所提出的NDP实现的构建模块,然后介绍相关联的在线学习算法。 在第三部分,我们提供关于一级摆平衡问题的在线NDP设计的测试。 第四节给出了NDP设计在单摆摆动和平衡任务中的评估。 第五节包括更难的在线学习控制问题的模拟结果,即三连杆倒立摆平衡任务。 在介绍NDP设计,算法和性能评估之后,我们尝试使用随机近似参数为我们的在线NDP设计的分析洞察提供一些初步结果。 最后,提供了一个结论和讨论部分,我们还提供一些初步结果,提高我们提出的NDP设计的可扩展性。
II 通过协会和加强学习的一般框架
图1是我们提出的在线学习控制方案的示意图。 二进制加强信号从外部环境提供并且可以分别对应于“成功”或“失败”的“0”或“-1”。
在我们的在线学习控制系统设计中,控制器刚刚开始控制时是“基础的”,即动作网络和评价网络的权值参数都是随机初始化的。 一旦观察到系统状态,将基于动作网络中的参数随后产生动作。 在特定系统状态下的“更好”控制值将导致最佳性原理的更平衡的方程。 这组系统操作将通过动作网络中的状态和控制输出之间的存储器或关联来加强。 否则,通过调整动作网络中的权值来调整控制值,以使得最优性原理的方程更平衡。
为了更定量,考虑评价网络如图所示。 评价元素的输出,函数。 具体地,其在由给定的时间近似为:
其中是在时间的未来累积回报率值,是问题()的折扣因子。 我们在实现中使用了。是在时间的外部增强值。
- 评价网络
评价网络用于在(2)中提供作为的近似。我们定义了评价元素的预测误差:
以及在评价网络中最小化的目标函数:
评价网络的权值更新规则是基于梯度下降的规则,如下式:
其中是时间处的评价网络的学习速率,其通常随时间减小到最小的值,是评价网络中的权值向量。
B.动作网络
适应性动作网络的原理是间接地反向传播由表示的期望的最终目标和来自评价网络的近似函数之间的误差。 由于我们定义了“0”作为“成功”的增强信号,因此在我们的设计范例和我们的以下案例研究中,被设置为“0”。 在动作网络中,状态向量用作输入以创建作为网络的输出的控制。 反过来,取决于问题的复杂性,动作网络可以通过线性或非线性网络来实现。 动作网络中的权值更新规则如下所示。
图 2.使用具有一个隐层的前馈网络的非线性评论网络的实现的示意图。
更新动作网络中的权值以最小化以下误差度量:
权值更新算法类似于评价网络。通过梯度下降规则
其中是动作网络在时间的学习速率,其通常随时间减小到最小的值,是动作网络中的权值向量。
C.在线学习算法
我们在上面介绍的在线学习结构包括学习系统中的两个主要组成部分,即动作网络和评评价网络。在下文中,我们设计学习算法,并阐述两个模块是如何学习的运行的。
在我们的NDP设计中,动作网络和评价网络都是非线性多层前馈网络。在我们的设计中,在每个网络中使用一个隐藏层。 非线性多层评价网络的神经网络结构如图2所示。
在评评价网络中,输出将是形式
其中
评价网络的隐藏节点输入;
隐藏节点的相应输出;
评价网中隐藏节点的总数;
包括来自动作网络的模拟动作值的到评价网络的输入的总数。
通过规则,评价网络的适应性总结如下。
(隐藏层到输出层)
(输入层到隐藏层)
现在,让我们研究动作网络中的适应,其由与图2中的前馈网络类似的前馈网络实现。 除了输入是测量状态,输出是动作。 动作网络的相关方程为
其中是动作节点的输入,和分别是动作网络的隐藏节点的输出和输入。 由于动作网络仅输入状态变量,在(24)中没有如在评论网络中的()项[参见(15)用于比较。 非线性多层作用网络的更新规则也包含两组方程
(隐藏层到输出层)
在上述等式中,是通过改变变量和通过规则获得的。 结果是求和项。是与来自动作网络的输入元素相关联的权值。
(输入层到隐藏层)
在两个网络中执行归一化以将权值限制在某个适当的范围内
在实现中,(17)和(20)用于更新评价网络中的权值,并且(27)和(30)用于更新动作网络中的权值。
III 案例研究一
NDP设计已经在一级倒立摆上实施。 首先,自适用控制器没有关于系统的先验知识,而只有在线测量。 目的是平衡安装在车上的单杆,使小车可以在有界的水平轨道上向右或向左移动并保持单杠平衡。 控制器的目标是在右或左方向上提供固定大小的力(施加到推车上),使得杆站立平衡并且小车避免撞击轨道边界。为了将学习控制器测量的状态提供给动作和评价网络的输入,使用包括物理系统,例如摩擦,的所有非线性和反作用力的详细模型在数字计算机上模拟单级倒立摆系统。 注意,这些模拟状态将是实时应用中的测量状态。
- 单级倒立摆平衡问题
在本研究中使用的单级倒立摆系统与[1]中的相同。
其中
9.8m/s2重力加速度;
1.0kg,车的质量;
0.1kg,杠得质量;
0.5m,半杆长度;
0.0005,推车在轨道上的摩擦系数;
0.000002,车上的杆的摩擦系数;
plusmn;10牛顿,力施加到车的质心;
非线性微分方程(33)和(34)通过四阶Runge-Kutta方法进行数值求解。 该模型提供四个状态变量:,车在轨道上的位置; ,杆相对于垂直位置的角度; ,推车速度; ,角速度。
在我们目前的研究中,运行包括最多1000个连续试验。 如果运行的最后一次试验(试验号小于1000)持续了600 000个时间步长,则认为该操作成功。 否则,如果控制器不能学习在1000次试验中单级倒立摆不能倒立平衡(即,1000次试验中没有一次持续超过600000个时间步长),则认为运行不成功。 在我们的模拟中,我们对每个时间步长使用0.02s,而试验是从开始到下降的完整过程。 当杆位于[-12°,12°]的范围之外或车相对于轨道上的中心位置超出[-2.4°,2.4°]的范围时,认为杆被坠落。 注意,尽管施加到手推车的力是二元的,但是控制被输送到如图1所示的评价网络中是连续的。
B.仿真结果
我们进行了几个实验来评估我们的学习控制系统设计的有效性。 在模拟中使用的参数总结在表I中,其中适当的符号定义如下:
评价网的初始学习率;
动作网络的初始学习速率;
评价网络在时间A的学习速率每五个时间步长减少0.05,直到达到0.005,并且其后保持在;
动作网络的学习速率每5个时间步长减少0.05,直到达到0.005,并且之后保持在;
评价网的内部循
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[139548],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。