英语原文共 21 页,剩余内容已隐藏,支付完成后下载完整资料
基于模型的强化学习在机器人中的应用综述
摘要:强化学习是机器人学习新任务的一种较为理想的方法。相关文献提供了大量强化学习的方法,但同时也清楚地表明了其在现实环境中的应用还有许多挑战。目前对自适应机器人产生了越来越多的需求。我们认为,采用基于模型的强化学习,可以扩展机器人系统目前有限的适应性特征。同时,与无模型方法相比,基于模型的强化学习具有更适用于实际用例的优点。因此,在本综述中,涵盖了已在机器人技术中应用的基于模型的方法。我们根据最优策略的推导,奖赏函数的定义,转换模型的类型和学习任务对它们进行分类。最后,考虑到算法和硬件方面的最新技术,我们讨论了基于模型的强化学习方法在新应用程序中的适用性。
关键字:智能机器人、机器学习、基于模型的强化学习、机器人学习、策略搜索、转换模型、奖赏函数
简介
强化学习(RL)构成了人工智能领域的重要方面,其应用范围非常广泛,从金融到机器人技术,并提出了许多方法。将强化学习应用于机器人技术具有挑战性,因为其涉及机械系统与其环境之间的相互作用。这样的相互作用会损害机械系统和人体,特别是在预计会接近人体的服务和工业机器人中。另一方面,强化学习可以提高机器人系统的适应性,这是应对复杂和动态环境的重要特性。自然地,在过去的几年[1,2]机器人技术的广泛应用中[3],将强化学习用于机器人控制已变得越来越流行。考虑到在未来的几年中,机器人有望变得更加智能,而不仅仅是能够重复一系列明确的简单动作这一事实不足为奇。这项工作背后的动机基于以下观察:已经发表的许多将强化学习应用于机器人技术的论文主要集中在无模型方法上。但是,近年来,基于模型的强化学习在机器人技术中的应用越来越引起人们的关注[4-11]。这篇综述的另一个激励因素是观察到机器人本身正在发生变化。低成本的协作机械手已成为机器人市场的重要组成部分,并有望在未来几年内获得更大的普及。这种机器人的较低成本不可避免地要求其在准确性和可重复性以及其内部传感设备的质量上进行折中。因此,需要重新考虑将要应用于这种新型机器人的学习技术的特征。这项工作的目标有两个:
1、对机器人技术的强化学习进行最新概述,重点是基于模型的方法并展示其相对优势;
2、调查强化学习方法应对低成本机械手的挑战的适用性,并在第7节中得出结论,总结出一种稳健且可靠的基于模型的强化学习方法,用于使用低成本机械手执行任务。
为了实现第一个目标,我们研究了基于模型的强化学习应用于模拟和真实机器人系统上的相关文献。我们介绍了值函数和策略搜索方法以及设置奖赏函数和学习转换模型的策略,这些策略已成功应用于机器人系统。我们只有在对最新技术进行分析之后,再结合从第一个目标中得出的结果,才能实现第二个目标。
这篇综述由以下部分组成。在本介绍性章节之后,在第2节中介绍了用于基于模型的强化学习的值函数方法。在第3节中讨论了奖赏函数,而在第4节中,介绍了策略搜索方法。此外,在第5节中介绍了过渡动力学的建模方法。第6节回顾了应用于机器人平台以学习各种任务的基于模型的强化学习方法的案例。最后在第7节中得出结论,并讨论了基于模型的强化学习除文献中已报道的应用之外的应用。
基于模型的强化学习的背景
强化学习和其他类型的机器学习之间的主要区别在于,其学习过程涉及智能体与环境之间的交互,因此智能体直接从环境中收集经验来学习所需的任务,而无需外部老师。但是,这两个组成(智能体和环境)之间的区分并不总是那么简单,而是取决于应用。例如,在诸如双足行走和无人机控制之类的应用中,假定环境包括机器人的电动机。
机器人s的状态可以用连续或离散的方式描述。在每种状态下,机器人控制器都会执行一个动作a(电动机指令),从而导致其状态发生变化。这些动作是从策略函数导出的,该函数在确定的情况下将状态映射到单个动作。在随机情况下,策略函数取决于随机变量,对应关系被写成动作上的概率分布。
强化学习算法的目标是找到使期望收益最大化的策略,这个期望收益是由奖赏函数r定义的。奖赏函数的主要类型可以是折现或平均的,并且可以在有限或无限的范围内进行计算。当学习的任务具有已知的结束状态时,将使用有限范围,否则无限函数更合适。机器人与环境之间的交互建模为马尔可夫决策过程(MDP),即元组。S是可能的机器人状态集,A是动作集,是当机器人处于状态s并执行动作a时,转变为未来状态的概率。是机器人在过渡到状态时所期望的奖赏,它取决于所应用的动作a,状态s,并通过奖赏函数进行计算。最后,是奖赏函数的折现因子。
强化学习主要有两种方法,即无模型(也称为直接)和基于模型(也称为间接)的方法。两者之间的主要区别是是否使用机器人和环境之间的交互模型。在无模型方法中没有模型,因此通过与物理系统的试错法得到奖励和最佳行动。在基于模型的方法中,存在过渡动力学模型,用于得出奖励和最佳行动。因此,在模型上对策略进行了优化,并将最佳策略应用于物理系统。图1说明了基于模型的强化学习的传递途径。
图1 基于模型的强化学习算法的传递途径
无模型方法吸引了广泛的科学关注,但是当应用于真实机器人时,用于推导最优策略的采样轨迹可能是一个缺点。另一种方法是使用基于模型的方法。在这种情况下,最优策略是基于对应于机器人动力学表示的前向学习模型的内部模拟而导出的。该特性大大减少了机器人与其环境之间的物理相互作用,从而大大减少了机械磨损。另一方面,它的主要缺点是基于模型的强化学习算法在很大程度上依赖于模型准确表示过渡动力学的能力。表1总结了两类强化学习算法的优缺点。
强化学习方法 |
优点 |
缺点 |
基于模型的强化学习 |
机器人与环境的相互作用少 |
依赖转换模型 |
快速收敛至最优方案 |
模型准确性对学习任务影响大 |
|
无模型的强化学习 |
无需过渡知识 |
学习过程收敛慢 |
易于实现 |
机器人磨损大 |
|
损坏风险高 |
表1 无模型与基于模型强化学习的优缺点
强化学习问题的解决方案可以从两个替代方法中得出。最广泛使用的是值函数方法,它估计处于给定状态并根据策略执行动作的个体的未来预期奖赏。值函数分为状态值函数,是从状态s出发使用策略的预期奖赏;动作值函数,是从状态s出发,执行动作a后再使用策略的预期奖赏。在有限学习范围H的情况下,奖赏函数是奖励的总和,即。在无限范围的情况下,奖赏函数可以是折现(12)或平均形式(13)。
值函数方法估计最优值函数(状态值或动作值),以便得出每个状态下的最佳动作。因此,最大化长期奖赏的策略是从每种状态下的最佳动作中得出的。值函数方法分为四类:需要过渡动力学模型的动态编程(DP)法,基于采样的蒙特卡洛(MC)法,考虑两种状态转化时的值函数的差异的时序差分(TDL)法和差分动态编程方法(DDP)。
另一种方法是使用策略搜索方法。在策略搜索方法中,通过学习直接得到最优策略,取代了用最优值函数重建策略。这一事实使最新的策略搜索方法在高自由度机器人系统的情况下比值函数方法收敛地更快[2]。策略由各种各样的方法表示,从简单的线性函数到复杂的动态运动基元[1]。它们的共同特征是都由一组参数进行参数化,需要对其进行优化以最大化累积奖励。策略搜索涉及以下方法:基于梯度的方法,可使用爬山法对奖赏函数的梯度进行参数集更新; 期望最大化(EM)方法,通过使奖励的对数似然概率最大化来推断参数; 信息理论(Inf.Th.)方法,利用诸如熵的概念来推导优化策略;贝叶斯优化方法和进化计算法。本综述的其余部分将遵循此分类法,以探索该领域的最新技术。
二、值函数方法
强化学习问题的状态值函数可以以递归形式编写,如等式1所示。某一状态的值函数取决于可能的未来状态的即时奖励及其以转换概率加权折现后的值函数。
(1)
动作值函数可以等效地以递归形式编写为:
(2)
方程1和2分别是状态值和动作值的贝尔曼方程。值函数方法的目标是通过最大化每种状态下的值函数来计算值函数并得出最优策略。可以证明,存在一个最优策略使值函数最大化,最优状态值函数的写法如下:
(3)
这对应于状态值函数的贝尔曼最优方程。相似地,最优动作值函数也是贝尔曼最优方程,写为:
(4)
值函数方法提供了推导最优值函数的方法,它是用来重构最优策略的。这类方法在基于模型的强化学习 [9,10,12–26] [27-30]的环境中非常流行,尤其是需要已知过渡动力学模型的动态编程方法。其他方法(例如蒙特卡洛法和时序差分法)主要用于无模型的强化学习,因为它们不需要已知的模型。
动态编程(DP)法是迭代的算法,可以分为策略迭代[34]和价值迭代法[35]。策略迭代包括两个步骤:第一步是策略评估,针对给定策略计算状态或动作值函数。这是从一个迭代过程中得出的,该过程计算每个状态的价值函数,直到满足收敛标准为止。在策略评估之后是策略改进步骤,在此步骤中得出每个状态的最佳动作。
在[11,12]文献中,作者使用了Natural Actor-Critic算法[36]来采用策略迭代方法。在评价部分,策略评估是使用时序差分法(即LSTD-Q(lambda;),基于Q值函数的最小二乘时间差分法[37])执行的,而行动部分是使用自然梯度方法[38]进行策略的改进。在文献[6]中也使用了行动-评价算法,其中作者使用算法的评价部分中值函数的梯度改进了策略推导。在文献[13]中,使用改进的最小二乘策略迭代算法[39,40]执行评估和改进步骤。在评估步骤中,使用动作值函数的参数逼近来减少状态空间。通过求解线性方程组来推导表征近似动作值函数的参数,可以改善该策略。通过采用文献[41]中介绍的优先扫描(PS)技术,可以提高算法的预测效率和时间效率,该技术将状态值的更新集中在“有趣的”状态上。在文献[9]中,作者使用了高斯过程[42]模型来逼近动作值函数。策略评估基于从转换模型生成的样本,这些样本用于估算动作值。可以通过使用每个状态的最佳动作值的贪婪方法或考虑每个状态的整个可能动作样本集来执行策略的改进。
在策略迭代方法中,只有在评估步骤收敛后才更新策略,这是一项耗费时间和资源的工作。相反,价值迭代方法在评估过程未收敛时就可以更新策略。文献[20]将价值迭代方法与优先扫描技术结合使用。该算法由于并行执行而针对在线学习进行了优化。文献[21]的作者使用在[43]中介绍的R-Max算法。它使用价值迭代来规划可重定位动作模型,这是一个分解的马尔可夫决策过程(MDP) [44]。R-MAX是一种简单但强有力的基于模型的强化学习算法,因为它可以通过多项式计算复杂度实现接近最佳的效果[43]。该算法采用“不确定条件下的乐观主义”的方法,假设所有未知状态均返回可能的最大奖赏,而未知过渡会转换为虚拟的新状态。该算法包括两个重复步骤,即计算和操作以及观察和更新。第一步,个体根据其知识来计算和应用最佳策略,该策略将执行到事件结束或到达新状态。此步骤之后是观察和更新步骤,在这一步骤中,个体为每个已经采取的动作更新模型的奖赏和转换概率,并重新计算最佳策略。因此,R-MAX迫使个体探索其域,这将产生一个准确的模型和一个接近最优的策略。
差分动态编程(DDP)是基于模型的强化学习中用于推导最佳策略的一种广泛使用的方法。DDP算法起源于最优控制领域。它们执行局部轨迹优化,因此需要初始轨迹才能采用两步优化程序。通过指定值函数的局部二次模型和与初始轨迹相对应的策略函数的线性模型,可以初始化DDP算法。在优化过程的第一步中,将当前策略应用于动力学模型,该模型会生成模拟轨迹。在第二步中,生成的轨迹将用于计算每个点上的值函数的组成,然后相应地更新策略函数的参数。
七、讨论与结论
上一节揭示了基于模型的强化学习在各种机器人应用中的成功展开。但是,大多数(即使不是全部)被研究论文的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237603],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 2.3港口吞吐量预测外文翻译资料
- 使用多标准移动通信分层遗传算法的阻抗 匹配网络的宽带优化外文翻译资料
- 移动RFID标签阅读与非重叠串联阅读器在输送带的应用外文翻译资料
- 利用数字图像进行的全场应变测量方法外文翻译资料
- 自然灾害中并发事件的多种应急资源的分配外文翻译资料
- 基于主机的卡仿真:开发,安全和生态系统影响分析外文翻译资料
- 实现基于Android智能手机的主机卡仿真模式作为替代ISO 14443A标准的Arduino NFC模块外文翻译资料
- 探索出行方式选择和出行链模式复杂性之间的关系外文翻译资料
- 信息系统研究、教育和实践的基本立场及其影响外文翻译资料
- 仓储和MH系统决策模型的设计优化与管理外文翻译资料