基于视觉的机器人运动控制和深度强化学习外文翻译资料

 2021-12-16 22:53:28

英语原文共 8 页

基于视觉的机器人运动控制和深度强化学习

张方毅,于尔根·莱特纳,米迦勒·米尔福德,本·乌普克罗夫特,彼得·科克

ARC机器人视觉卓越中心,昆士兰科技大学

摘要

本文介绍了一种基于机器学习的机械手控制系统。首次展示了不需任何已有构造信息仅从原始像素图像自主学习机器人控制器的能力。我们在最近深部强化学习取得成功的基础上,开发了一个利用外部视觉观察的三关节机器人机械手学习目标达成系统。在模拟训练中,证明了深度Q网络(DQN)能够实现目标的达成。虽然用简单的方法将网络传输到真实硬件和实际观测中失败了,但实验表明,当用合成图像替换摄像机图像时,网络可以正常工作。

目录

1 简介 5

2相关工作 6

2.1基于视觉的机器人操作 6

2.2机器人深度学习 6

2.3深入的监管政策 6

2.4深度Q网络 7

3问题定义和系统描述 8

3.1基于DQN的学习系统 8

3.2目标到达模拟器 9

4实验和结果 11

4.1模拟场景培训 11

4.2在模拟场景中的测试 12

4.3使用摄像机图像的真实世界实验 15

5结论与讨论 16

致谢 18

1 简介

机器人广泛应用于工业制造工厂中的各种操作任务,这些工厂的环境相对静止且简单。然而,在日常生活中经常遇到的高度动态和复杂的环境中,这些操作仍然是机器人面临的挑战。不过,人类却能够在这种高度动态和复杂的环境中进行操作。我们似乎能够通过观察别人的表现来学习操纵技能(从观察中学习),并且通过尝试和错误来掌握新的技能(从探索中学习)。受此启发,我们希望机器人以同样的方式学习和掌握操作技能。

图1:Baxter的手臂由经过训练的深Q网络(DQN)控制。合成图像(右侧)被输入DQN,以克服遇到的一些现实问题,即培训和测试设置之间的差异。

为了给机器人从探索中学习的能力,需要能够自主学习的方法,以及灵活应对一系列不同操作任务的方法。在这方面,一个有前途的适合自主学习的是深度强化学习(DRL),它将强化学习和深度学习结合起来。DRL的一个热门例子是深度Q网(DQN),它在38天内学会玩Atari 2600游戏后,在玩游戏时能够与人类的表现相一致。尽管研究者们承诺DQNs有着很好的应用前景,但将其应用于“完美”且相对简单的计算机游戏世界,与将其应用于复杂的机器人操作任务,尤其是在考虑传感器噪声和图像偏移等因素的情况下,还相差甚远。

本文采取的第一步是使DQNs能够用于学习机器人操作。我们集中从操纵器的视觉观察中学习这些技能,而不需要事先了解配置信息或关节状态。为此,作为第一步,我们对使用DQNs执行简单目标达成任务的可行性进行了评估,这是一般操作任务(如对象选取)的一个重要组成部分。我们特别做出了以下工作:

bull; 我们提出了一个基于DQN的目标达成任务学习系统。该系统由三个部分组成:一个用于达到目标的二维机械臂模拟器、一个DQN学习器和基于ROS的接口,以实现对Baxter机器人的操作。

bull; 我们在模拟中培训代理,并在模拟和现实目标达成实验中对其进行评估。模拟实验是在不同的噪声水平、图像效果集、初始手臂姿态和连杆长度下进行的,这是机器人运动控制和操纵中常见的问题。

bull; 我们讨论并确定了未来工作中的一些问题和机会,以便在现实机器人操作中实现基于视觉的深度强化学习。

2相关工作

2.1基于视觉的机器人操作

基于视觉的机器人操作是机器人利用其操纵器(如机械臂)根据摄像机图像重新安排环境的过程。早期基于视觉的机器人操作是使用基于姿势(位置和方向)的闭环控制来实现的,其中视觉通常用于提取对象的姿势,作为任务开始时操作控制器的输入。

目前大多数基于视觉的机器人操作方法都是基于视觉感知的闭环控制。一个基于视觉的操作系统是在Johns Hopkins的“稳定手机器人”上实现的,它可以在毫米到微米的尺度上,使用虚拟文件进行协同操作。利用单眼和双目视觉线索,将各种闭环视觉策略应用于机器人使其能够操纵已知和未知的物体。

此外,在现实世界中,各种学习方法也被应用于实现复杂的操作任务。通过连续隐藏马尔可夫模型(HMMS),仿人机器人能够通过视觉从人类演示中学习双臂操作任务。然而,这些算法中的大多数是针对特定任务的,需要大量的先验知识。因此,它们不能灵活地学习一系列不同的操作任务。

2.2机器人深度学习

强化学习(RL)已经应用于机器人领域,因为它承诺通过提供通知机器人其行为成功N(正反馈)或不成功(负反馈)来学习复杂机器人系统上的复杂动作。Peters等人回顾了一些RL概念在控制复杂类人机器人方面的适用性,并强调了贪婪策略搜索和基于梯度的方法的一些问题。如何产生正反馈是一个热门的研究课题。内在动机和好奇心被证明能够提供探索大型状态空间的方法,例如在复杂的类人身上发现的那些更快速、更有效的状态空间。

2.3深入的监管政策

为了使机器人能够在几乎没有先验知识的情况下学习操作技能,Sergey等人介绍了一种基于卷积神经网络(CNN)的策略展示体系结构(深层视觉运动策略)及其引导策略搜索方法。深视觉运动策略将关节角度和相机图像直接映射到关节扭矩。机器人配置是唯一必要的先验知识。策略搜索方法分为两个阶段,即最优控制阶段和监督学习阶段。训练包括三个步骤,即姿势CNN训练、轨迹预训练和端到端训练。

深入的视觉运动策略确实使机器人能够通过监督学习以很少的先验知识学习操作技能,但预先收集的数据集是必要的。人类对数据集的参与使得这种方法的自治性降低。此外,专门为加快多接触式操作学习而设计的训练方法,使得它对其他操作任务的灵活性降低。

2个全连接层的输出

3个卷积层的输出

图2:端到端学习的DQN层及其各自输出的示意图。四个输入图像被重新整形(RS),然后作为灰度图像(从RGB转换)输入DQN网络。DQN由三个卷积层组成,每个卷积层后面都有整流层(RF),然后是一个整形层(RS)和两个完全连接的层(中间还有一个整流层)。可视化每个层的规范化输出。(注:最后四层的输出显示为矩阵而不是向量。)

2.4深度Q网络

DQN是DRL的一个时下热门的例子,它满足了从探索中学习的自主性和灵活性要求。它成功地学会了玩49种不同的雅达利2600游戏,达到了人类的控制水平。DQN使用深度卷积神经网络(CNN)来近似Q值函数。它将原始像素图像直接映射到动作。不需要预输入特征提取。唯一需要的就是让算法通过反复玩游戏来改进策略。它通过使用相同的网络架构而不做任何修改就学会了玩49种不同的游戏。

DQN由其输入(游戏视频帧的原始像素和得到的反馈)和输出(即游戏中可用操作的数量)来定义。在使用DQN进行运动控制时,此动作的数量是唯一的先验知识,这意味着代理不需要机器人配置信息。在DQN训练过程中,雅达利2600游戏引擎作为一种报酬函数,但在对于机器人的运动控制时,则不存在这样的引擎。为了将其应用于机器人的运动控制,需要一个报酬函数来评估试验。此外,感知噪声和更高的复杂性和动态性是现实应用中不可避免的问题。

3问题定义和系统描述

机器人操作中的一个常见问题是要接触到与之交互的物体。此目标到达任务的定义为控制机器人手臂,使其末端影响器达到特定的目标配置。我们只对一个机器人执行的目标达成与视觉感知这种情况感兴趣。为了学习这项任务,我们开发了一个系统,由三部分组成:

bull; 用于机器人目标到达的二维模拟器,为学习者创建视觉输入

bull; 基于Google DeepMind的DQN实施的深度强化学习框架

bull; 基于ROS的接口组件,用于根据DQN输出控制Baxter机器人。

3.1基于DQN的学习系统

这里采用的DQN与玩Atari游戏的DQN具有相同的架构,其中包含三个卷积层和两个完全连接的层。它的实现基于稍作修改的Google DeepMind DQN代码。图2显示了每一层的体系结构和示例输出。DQN的输入包括奖励和图像。它的输出是要采取的行动的索引。DQN在与目标到达模拟器的交互作用中学习目标到达技能。图3所示为在真实机器人上进行仿真学习和测试的系统框架概述。

机器人接口

相机

真实机器人测试

深度Q网络

模拟训练

目标达成模拟

运用DQN的目标达成学习

图3 系统概述

在模拟训练或测试时,目标到达模拟器提供奖励值(R)和图像(I)。用于培训网络。DQN的动作输出(A)直接发送给模拟的机械臂。

在使用摄像头图像对Baxter机器人进行测试时,外部摄像头提供输入图像(I)。DQN的动作输出(A)在基于ROS接口的机器人上实现。接口通过发送更新后的机器人姿态(qrsquo;)来控制机器人。

3.2目标到达模拟器

我们模拟到达任务,在二维控制三关节机械臂(图4)。模拟器是从零开始实现的。在实现中,没有使用仿真平台。如图4(a)所示,机械臂由四个连杆和三个关节组成,其配置符合Baxter臂的规格,包括关节约束。蓝点是要达到的目标。为了更好地可视化,末端挡板的位置用一个红点标记。

(a)原理图 (b)机器人模拟器

图4:二维目标到达模拟器,为DQN学习者提供视觉输入。它是从零开始实现的,没有使用仿真平台。

我们可以通过向各个关节“S1”、“E1”和“W1”发送特定命令来控制模拟器。模拟器屏幕分辨率为160times;320。

模拟器模拟的相应真实场景是:在Baxter手臂上其他关节的适当恒定关节角度下,手臂在由关节“S1”、“E1”和“W1”控制的垂直平面上移动,控制器(游戏机)通过直接放置在其旁边的带有水平点的外部摄像机观察手臂。观点。三个接头处于位置控制模式。背景是白色的。

在该系统中,二维模拟器作为与DQN设置相关的目标到达视频游戏。它向网络提供原始像素输入,并有九个操作选项,即每个关节有三个按钮:关节角度增加、减小和保持。关节角度的增加/减少阶跃在0.02 rad时是恒定的。在每轮开始时,关节“S1”、“E1”和“W1”将被设置为某个初始姿势,如[0.0、0.0、0.0]rad;目标将被随机选择。

在游戏中,每按一次按钮将返回一个奖励值。奖励值由第3.3节中介绍的奖励函数确定。当满足某些条件时,游戏将终止。游戏终端也由奖励功能决定。对于玩家来说,目标是在游戏结束前获得尽可能高的累积奖励。为了

资料编号:[4884]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。