英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
通过人类示教的工业机器人工业装配学习技术
摘要
工业应用中的人机协作对于工业机器人而言是一项具有挑战性的任务。因为人类可以无规律地行动,所以人类在工作场所与机器人一起工作可能会的机器人工作引入不可预测的因素,。人类倾向于使用他们的专业知识和认知能力以不完全重复的方式执行任务,但传统的机器人编程无法应对人机协作的这些挑战。在本文中,介绍了通过多人演示进行机器人学习的方法结构。通过演示,机器人可以学习组装任务(高级学习)的动作顺序,而无需预编程。此外,机器人也可以根据对象操作(低级学习)的需要学习每条路径。一旦机器人具有了有关被展示任务的知识,它就可以与人类合作执行任务。与此同时,随着人类协作者可以引入环境的变化,例如将要被操纵的对象放置在与所展示的行为所不同的位置和方向中,就可能需要对所学习的知识进行调整。本文提出了一种新的实时自适应算法,以应对人为因素引入的环境变化,本文所提出的算法能够识别在新环境中需要执行的动作序列。基于高斯混合模型的修改算法能够调整学习的路径,在无需通过演示进行额外的训练的前提下使机器人能够成功完成任务。本文所提出的框架处理了待操纵物体的位置和方向的变化,并且还提供了避障的功能。此外,该框架使得人类协作者能够为机器人所学习的任务建议不同的动作序列,并将由机器人执行。本文所提出的算法在装配场景中的双臂工业机器人上进行了测试,并给出了相应测试结果。测试显示的结果证明了本文所提出的机器人学习框架的潜力,该框架可以实现连续的人机协作。
关键词
机器人学习 人机协作 改进的GMM算法 工业装配任务 适应环境变化
1 简介
人与机器人在制造业中的合作越来越受到关注(Nikolaidis and Shah 2013; Pedersen et al. 2016; ABB 2014; KUKA Robotic 2017)。虽然过去研究的重点都是用机器人替换人类的工作,但今天的重点更多地放在让机器人作为助手或合作者。本文介绍的方法是通过提出制造装配方案的框架,有助于研究和开发工业应用中的人机协作,研究的目标有:机器人学习在无需预编程的前提下与人类合作者执行装配任务所需的动作序列(高级学习),其中包括对象移动和抓取/释放动作(轨迹的低级学习),在没有额外的训练的情况下机器人适应学习由人类合作者引入的环境变化的路径,以及机器人在人类合作者的建议之后以不同的发生顺序执行学习的动作序列。如果人类协作者对新的动作序列感到满意,则机器人会学习它。
传统上,工业机器人操纵器因其精确和迅速的特点而广泛用于生产线。然而,传统的工业操纵器由人类程序员预先编程,在结构良好且恒定的环境中执行特定任务。在环境变化的情况下,人类程序员必须事先考虑所有可能的事件,并且需要将机器人的动作编码对所有这些不同事件而分别设置。这个过程将涉及对每个不同案例的彻底测试。然而,如果出现了未事先考虑的新情况,则将重新进行整个预编程过程,机器人将不得不停止工作直到重新获得新的程序。为了使工业机器人编程更容易,几种技术在过去几年已经得到了使用。其中之一是设定一个框架,使人类合作者能够简单地向机器人演示任务,这种方法不需要传统机器人编程方法的高耗时和高技术技能(Zhang et al.2016)。此外,无论其精度,准确性和速度如何,现在的工业机器人都无法自主执行每项任务。在装配和制造生产线中仍然需要人工,因为人工方法具有机器人仍然无法实现的快速响应和方式适应不确定环境和不可预测事件的认知能力。因此,目前研究的重点是工业中的人机交互以及执行特定任务的人机协同工作(Tellaeche et al. 2015)。
然而,对于机器人而言,与人们共享相同的工作空间,并且两者同时操纵相同的物体可能会给机器人的工作环境带来不确定性。以一个由几个部分组成的对象组件中的人与机器人协作为例。首先,在训练阶段人类向机器人展示为完成任务必须执行的动作。假定动作为:拾取对象-第2部分,移动并将其放置在对象-第1部分的顶部,然后选择对象-第3部分,移动并将其放置在对象-第2部分的顶部。在工作阶段,机器人-人类团队正在联合组装物体。首先,人类将对象部件放在工作台上,机器人执行操纵对象部件的动作,这一动作在训练阶段学习,以便将它们放在彼此的顶部。由于人类协作者不像机器人那样精确,机器人不能在每次重复中将对象部件放置在装配要求的位置,而是放置在在训练阶段演示的对象部件位置和方向上。此外,机器人可以在一个工作周期间与不同的人类合作者合作,这可能引入机器人性能的不确定性,因为每个人类协作者不可能将定位和定向对象部件的过程无差别的进行。此外,由于某些操作失误,人类合作者可能会在工作台上放置一些物体,例如将工具放置在待组装物体的部分旁边,在机器人的工作环境中引入障碍物。这可能会导致机器人发生碰撞,操作不当或其他损坏。尽管工作空间中存在障碍物,但为了成功地执行任务并且没有中断,机器人需要适应环境变化并且在没有任何额外训练的情况下避开障碍物,类似于人类协作者对障碍物外观的反应方式。在本文中,提出了一种新颖的框架,可以使机器人使学习任务适应环境变化,而无需额外的培训。
本文所提出的框架基于一种方法,该方法使机器人能够学习涉及工业装配任务所需的尽可能多的对象的对象操纵任务。这种学习可以通过多次人体演示(演示)来实现,演示既引入了学习动作对不同物体姿势的自主适应,又引入了避障功能的要求。在所提出的框架中,机器人学习人类所演示的任务的动作序列,如果障碍物出现,它们实时地适应环境变化。另外,人类协作者能够以替代方式改变动作的顺序以执行组装任务,并且向机器人提供关于其性能的反馈,因此机器人利用正反馈来学习序列。
本文的结构如下。相关的工作见第二节,所提出的新型机器人学习框架的概述在第三节行动序列的离线学习见第四节,在线工作阶段的适应环境变化和避障方式在第五节中描述。用真实机器人进行的实验结果见第六节,第七节讨论了结论和未来的工作。
2.相关的工作
研究的其中一种方法是从人类演示中进行机器人学习,其中人类“教师(演示者)”向机器人学习者展示(演示)他/她的表现,并且机器人试图模仿人类所展示的表现。机器人从演示中学习的每个过程都包括三个基本步骤:观察,表现和再现(Dindo and Schillaci 2010)。
Argall等人总结了收集数据集的不同方法(观察演示)(2009年)。这些方法是:使用操纵杆或不同的其他界面进行远程操作(Forbes et al.2015; Pathirage et al.2013),动觉教学(Kormushev et al.2010; Kober and Peters 2009),可穿戴式传感器放置于演示者身上(Krug and Dimitrovz 2013; Leitner et al.2014)和基于视觉的外部传感器(Quintero et al.2014; Zhang et al.2016)。
给定使用上述方法中的一种或组合获取的技能或任务执行的数据集,机器人学习者必须能够从这一数据集中学习技能或任务。在一些研究中,不只是使用一个数据集,而是使用多个演示的数据集(Calinon et al.2010b),(Ekvall and Kragic,2006)。在本文介绍的工作中,使用了通过动觉教学和基于视觉的外部传感器的演示的多个数据集的组合。
有不同的方法来表示(抽象)并从演示数据集中学习技能或任务。这些方法由Calinon等人(2010b)和Billard等人分组(2007)。这些方法分为两类:轨迹水平的技能学习(低级学习)和符号任务学习(高级学习)。本文介绍的工作目标之一是通过结合高级和低级学习,以求在这两个类别之间建立桥梁。
2.1轨迹水平的技能学习(低级学习)
这种学习方法的主要目标是使机器人能够学习基本动作或手势(运动技能)。但是,该方法不能够再现更复杂的高级任务。
这一类别中的一种流行方法是动态运动基元(DMP)(Schaal et al. 2005; Pastor et al.2009),其允许机器人基于一个演示观察到的运动来学习非线性微分方程。为了实现一般化应用,在改进的DMP方法(Park et al. 2008)中,学习的微分方程可以适应于运动的不同起点和目标期望位置,并用于避障。此外,由于DMP算法仅适用于一个演示,因此它可以与高斯混合模型(GMM)结合以从多个演示中学习(Yin and Chen 2014)。 DMP还可以与强化学习相结合,以初始化所展示技能的原语集,以通过学习最优策略参数来改进和调整编码技能(Kormushev et al. 2010; Kober and Peters 2009)。使用动态系统模拟机器人运动的另一种方法是动态系统的稳定估计(SEDS)(Khansari-Zadeh and Billard 2011)。 SEDS方法能够从具有不同起始位置和相同目标位置的多个演示模拟机器人技能。
基于隐马尔可夫模型(HMM)的方法也被用于在轨迹水平上学习。在Calinon等人的研究中(2011),用到了基于HMM的框架学习时间和空间约束。此外,在Calinon等人的工作中提出了HMM与时间相关的高斯混合回归(GMR)和DMP之间的比较。(2010a),其中展示了每个框架如何根据多个演示学习轨迹。首先采用相同的初始点但目标点不同的少数演示,然后考虑具有相同目标点和不同初始点的少数演示。所示的再现满足了所展示任务的约束。
在轨迹水平上技能学习的另一种方法是估计分布,其由高斯混合模型(GMM)(Calinon et al. 2007; Sabbaghi et al. 2014)确定,其中使用高斯混合回归(GMR)推广轨迹。 GMM还可以与虚拟弹簧阻尼系统(DS-GMR)(Calinon et al. 2014)或线性吸引子系统结合GMR(Muuml;hlig et al. 2012)结合使用,以使机器人能够以新的方式执行学习技能开始和目标位置。此外,GMM / GMR与DMP相结合,用于将学习的轨迹推广到新的目标点和避障(Ghalamzan et al. 2015)。
此外,基于离散拉普拉斯-贝尔特拉米算子的算法(Nierhoff et al. 2016)使得能够将学习轨迹在线适应于动态环境变化,同时保持轨迹的形状类似于原始轨迹的形状。
在本文提出的方法中,GMM用于低水平轨迹学习,因为它是一种能够自动提取轨迹约束的方法(Calinon et al. 2007)。此外,使用新颖的改进的GMM / GMR方法,其使机器人能够使轨迹适应环境变化并提供避障。 GMR是一种实时和分析解决方案,可以从GMM /修改后的GMM中生成平滑的轨迹。产生的轨迹可以直接用于有效的机器人控制。该任务在未改变的环境条件下多次离线演示,并且适配模块修改轨迹以满足在线机器人功能(工作)阶段中出现的环境变化。表1示出了相关工作与所呈现的用于在轨迹水平上相对于人类演示(单个或多个)数量的技能学习的新方法,再现方法以及适应环境变化的可能性之间的比较。
2.2符号任务学习(高级学习)
在符号学习中,根据预定义运动元素的序列对任务进行编码。这种方法允许机器人学习动作的顺序先后,因此机器人可以学习高级任务(Ekvall et al. Kragic 2006)。符号学习的一个缺点是它依赖于先验知识来表现所展示任务的重要关键点。
对于高级技能的抽象和识别,隐马尔可夫模型(HMM)已被广泛使用。基于HMM的框架用于概括向机器人多次演示的任务(Kruger et al. 2010; Akgun and Thomaz 2016)。可用于识别所有演示中的冗余并用于机器人再现任务。
高级任务学习的另一种方法是增长分层动态贝叶斯网络(GHDBN),用于从数据中表示和再现复杂动作(Dindo和Schillaci 2010)。 GHDBN是一个两级分层动态贝叶斯网络(HDBN),其中一个级别描述任务的高级行为,另一个级别描述机器人的低级别行为。
Patel等人提出了一种基于多层次分层隐马尔可夫模型(HHMM)的复杂操纵表示和学习的概率方法(2014),其中复杂的操作任务被分解为多个抽象级别,以更简单的方式表示操作,称为操作基元。
基于GMM的分段框架从单个演示中提供任务学习(Lee et al. 2015)。 GMM与主成分分析(PCA)相结合,用于降低维数和选择分段数。
在本文提出的方法中,作者使用分割算法将演示的任务分解为单个动作,并且基于这些动作对来自GMM模型的高斯分组。
2.3工业应用中的人机协作
随着机器人越来越多地被用于工厂车间,研究人员正在寻找各种方法来帮助人们通过使用机电设备来安全,高效地工作。Weistroffer等人(2014)设计了一个用例,其中人和机器人在物理和虚拟环境中并排地在汽车装配线上工作,其重点是工业环境中人机协作的可接受性。结果表明,人类合作者更喜欢虚拟环境,因为这避免了机器人与人类合作者的直接物理接触。在一些其他工作中,研究了能够接受人与机器人对象直接操纵的方法的实现。例如,Maeda等人(2017)提出了一种基于概率运动的模仿学习方法,并在机器人与人类之间的物体交接中进行了测试。
在本文中,作者提出了一个框架,它使工业装配应用中的人机协作与基于虚拟环境的情境感知相结合,从而能够在执行之前测试机器人的运动。
3拟定的机器人学习框架概述
拟议框架的总体结构如图1所示。双臂工业pi4 Workerbot 3(http://www.pi4.de/english/systems/workerbot.html)用作框架机器人平台。它由两个由重力补偿控制器控制的6自由度UR10机械臂组成,可以将动觉教学用于机器人的任务演示。在动觉教学中,人类通过抓住机器人的末端执行器并在整个任务演示中沿着适当的轨迹移动它来进行演示任务。
全文共8316字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[1713]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。