回顾真实世界机器人的空间推理和交互
C. Landsiedel1, V. Rieser2, M. Walter3 amp; D. Wollherr1
(1. Chair of Automatic Control Engineering, Technical University of Munich, Munich, Germany)
(2. School of Mathematical and Computer Sciences (MACS), Heriot-Watt-University, Edinburgh, UK)
(3. Toyota Technological Institute at Chicago, Chicago, IL, USA)
摘 要:能够应对未知的非结构化环境的真正的通用助手机器人能够进行空间推理,即在对象和位置之间建立几何关系,用人类可以理解的术语表达这些关系。因此,理想的是空间和语义环境表示紧密相关。 3D机器人映射和空间的一致度量表现对导航和探索非常有用,但它们不捕获有关环境的符号级信息。然而,这对于推理至关重要,并且可以通过自然语言进行交互,自然语言可以说是人类使用和理解的最常见和最自然的交流渠道。本文介绍了与这一关于空间推理和交互的讨论相关的三个主要领域的研究。首先,对话系统是人机交互的现代方法的一个组成部分。其次,交互式机器人必须配备适合导航和任务完成以及与人类合作伙伴互动的环境表征和推理方法。第三,这些领域之间的接口是系统,它是可以将系统环境表示中的语言和来自自然语言描述的信息集成到机器人地图中的系统。对于这些领域中的每一个领域,概述了重要的方法,突出了领域之间的关系,讨论了具有挑战性的应用以及未解决的问题。
关键词:situated human-robot interaction; natural language grounding; spatial reasoning; environment modelling; semantic mapping
1. 引 言
机器人是我们正在开发并设想他们未来在最近的技术创新中是独一无二的,因为他们的特征包括在与人类共享的空间中演示和导航,感知联合环境并传达它们。对于许多可以想象的机器人使用案例来说,空间布置和布局的规范和沟通是至关重要的。诸如搜索和救援,城市或室内导航以及协同操作等情景都需要了解机器人和人类共享的空间。 在这些类型的机器人的自然和可访问的用户界面的范例下,口语自然语言是机器人与其人类用户之间通信的基本形式。例如,在协同工业建设的情况下,这可能允许用户用类似的命令来指导他们的辅助机器人 #39;从储藏室后面的工具箱中取出螺丝刀,并用它来拧紧我刚刚定位的左车门的上部螺栓。然后,机器人将解析这些信息,根据常识和环境知识在适当的位置确定必要的概念和对象,查找并澄清执行任务所需的可能缺失的信息,然后计划和执行所要求的操作。
这些情景对机器人所需的能力组合提出了一系列独特的挑战。从高级角度,机器人必须能够推理空间,如理解空间语言,在较低的级别,机器人必须了解自己的传感器和操纵器的相关内容。对于大多数机器人任务,特别是那些涉及导航的任务来说,环境的度量图是必要的。然而,这种格式不适合以人类直观的方式传达概念。通过传感器对符号,定性术语以及语义信息的包含来感知数量的抽象对于机器人知识来说是必要的,以允许与人类关于空间推理的方式接近的对话。这种类型的互动,人类和机器人共享一个环境,这是他们的话语话题,被称为情境互动。它要求机器人在其内部环境表示中研究空间语言,反之亦然。此外,交互可以提供环境信息,这是机器人的传感器曲目或感官视界外无法察觉的。
本文回顾了关于机器人空间推理和交互两个主要方面的基础和最近的工作。第一部分涉及机器人与其用户之间关于空间关系的自然语言交互。第2.1节讨论了这种地面上的人体机器人交互(HRI)的对话系统,第2.2节回顾了环境表征中空间语言的基础。来自传感器和相互作用的空间信息必须在机器人的内部知识表示中被接地和引用。环境表征,尤其是允许存储语义信息的环境表征,以及机器人中的符号空间推理系统构成了第3节中的第二个主要部分。由于环境表征在传统上是基于对人类认知处理空间信息的研究,所以在第3.1节中对该领域最重要的发现进行了简要概述。 3.2节讨论了空间推理和映射的定性方法。 3.3节概述了机器人中使用的映射方法,特别是那些包含定性组件并允许表示语义信息的方法。在3.4节中,我们特别关注从自然语言描述中推导出语义映射信息。本文最后讨论了机器人在现实世界中推理和互动空间的挑战,以及如何解决它们的想法。
口语语言理解(SLU)。 控制模块对应于执行对话策略的对话管理器(DM)。 输出模块由自然语言生成(NLG)系统和文本到语音转换(TTS)引擎组成。 通常,这些模块被放置在管道模型中。 ASR将用户的语音输入(1)转换为文本(2),参见图1.SLU将文本解析为一串有意义的概念,意图或言语行为(SA)(3)。 DM维护一个内部状态并决定下一步要采取的SA动作(4)。 这就是我们所说的对话战略。 对于大多数应用程序,DM也连接到后端数据库。 在输出模块中,NLG将交际行为(4)呈现为文本(5),并且TTS引擎将文本转换为用户的音频(6)。 有兴趣的读者可以参考介绍性文章,如[2,3]。
位置对话的显着特点是参与者被置于共享的时空背景下。 沟通时,参与者都可以参考环境中的对象,而每个参与者都有一个独立的感知视角。 因此,参与者需要确保他们理解彼此的话语,并能够唯一地解决对他们周围世界的引用。 这也被称为接地。 语言学家已经开发出关于这种基础如何在人与人交谈中起作用的先进理论,例如 [4],其中一些在SDS中实施,例如[5]。 在转向HRI时,出现了一些新的挑战,其中一些在本特刊中已有介绍,详见第4节。
2. 关于空间的自然语言人机交互
与机器人沟通的最直接和最自然的方式之一就是自然语言。 为了使机器人理解我们所说的内容并以一种连贯的,形式良好的话语作出回应,他们需要能够处理并生成自然语言,并且能够推理当前的情境。 本节首先介绍传统上用于模拟这些技能的口语对话系统(SDS)。
关于空间关系的交互尤其重要的是人与机器人通信在机器人的环境表示中的基础,第2.2节对这些方法进行了说明。
2.1 人机交互的对话
一般而言,对话系统有三个模块,每个模块分别用于输入,输出和控制,如[1]之后的图1所示。输入模块通常包括自动语音识别(ASR)和语言理解(SLU)。控制模块对应于执行对话策略的对话管理器(DM)。输出模块由自然语言生成(NLG)系统和文本到语音转换(TTS)引擎组成。通常,这些模块被放置在管道模型中。 ASR将用户的语音输入(1)转换为文本(2),参见图1.SLU将文本解析为一串有意义的概念,意图或言语行为(SA)(3)。 DM维护一个内部状态并决定下一步要采取的SA动作(4)。这就是我们所说的对话战略。对于大多数应用程序,DM也连接到后端数据库。在输出模块中,NLG将交际行为(4)呈现为文本(5),并且TTS引擎将文本转换为用户的音频(6)。有兴趣的读者可以参考介绍性文章,例如[2,3]
位置对话的显着特点是参与者被置于共享的时空背景下。 沟通时,参与者都可以参考环境中的对象,而每个参与者都有一个独立的感知视角。 因此,参与者需要确保他们理解彼此的话语,并能够唯一地解决对他们周围世界的引用。 这也被称为接地。 语言学家已经开发出关于这种基础如何在人与人交谈中起作用的先进理论,例如 [4],其中一些在SDS中实施,例如[5]。 在转向HRI时,出现了一些新的挑战,其中一些在本特刊中已有介绍,详见第4节。
2.2 解读空间自然语言
自然语言提供了一种高效灵活的手段,用户可以通过该手段将信息传达给机器人合作伙伴。自然语言可能会以命令的形式出现,指示机器人在其环境中执行操作任务[6,7]或导航[8-12]。解释自由形式指令的问题可以被形容为哈纳德[13]所指的符号接地问题,其目标是将语言中的语言元素映射到物理世界中相应的指示物。对自然语言符号接地的早期研究依赖于人工设计的规则,该规则利用语言的组成结构将话语中的单词与预定义的环境特征集合(例如占用网格形式的度量图)和动作相关联[14-17 ]。静态语言到符号映射的使用将理解限制在一小组固定的短语中,因此不能扩展到自然语言的多样性。后来的工作采用统计方法,用自由形式话语的平面表示来模拟符号接地问题。这些技术[8,9,18-20]学会通过在感知语境中使用语言来将自由形式的话语转换为他们所指的符号[21]。这些符号可以采用环境混合地图中的特征的形式(见第3.3.3节),表达不同对象和地点的空间,语义和拓扑特性。这些符号接地方法根据一组固定的手动定义的语言,空间和/或语义特征来模拟自然语言接地,但无法解决需要对语言的层次结构进行建模的更复杂的表达式。
解决语言习得问题的一种方法是将语言理解作为学习将自然语言转换为等同形式语言的解析器的问题。重要的是,许多这些方法不需要预先表示环境,而是依赖基于规则或约束的规划器来根据传感器数据满足解析的形式语言。 Matuszek等人[9]用一种通用的解析器解析自由形式的语言,这种解析器以监督的方式训练自然语言的话语与他们的正式语言基础配对。同样,Chen和Mooney [22]将自然语言导航指令解析为下游机器人控制过程可以处理和执行的移动动作的正式规范。解析器以弱监督的方式从自然语言指令对及其相应的动作序列以及机器人环境的符号表示进行训练。同时,Kim和Mooney [23]将语言学习基础作为概率上下文无关语法(PCFG)的归纳。他们使用习得的词汇[22]来约束生产规则集,从而能够将PCFG扩展到机器人的动作空间。 Kim和Mooney [24]通过使用以弱监督方式训练的判别式分类器并入重新排序来扩展其模型。或者,Artzi和Zettlemoyer [25]和Artzi等人。 [26]使用组合的分类语法对分析问题进行建模,该分类语法将自然语言话语转换为其相应的lambda演算指示物。同时,梅等人。 [12]引入了一种将自然语言指令映射到动作序列的神经序列 - 序列模型。该模型采用基于对齐的循环神经网络的形式,对自由形式指令进行编码,然后根据可见环境将结果表示解码为动作序列。该模型具有不使用任何专业语言资源(例如解析器)或任务特定注释(例如种子词典)的优点,并且可以以端对端方式进行培训。
第二种基于语言习得的方法是将自然语言话语映射到机器人环境模型中相应的位置和对象以及其动作空间中的动作。 在这种情况下,环境通常表示为一个混合图,表示与环境中特定对象和位置相关的空间,拓扑和语义属性(见第3.3.3节)。
这些技术学习了一种概率模型,该模型捕捉自由形式话语中的每个单词与其在世界模型中的匹配参照物(即包含在地图中的符号和机器人的动作空间)之间的对应关系。 然后解释一个新话语的任务就是在这个学习的概率模型中进行推理。 Kollar等人 [8]采取这种方法,通过构建一个自由形式语言的扁平顺序表示的生成模型,包括预先指定和学习的副词,动词和空间关系模型。
或者,Tellex等人[6]提出了一种利用语言层次结构结构的判别模型。广义接地图(G3)根据语言的语法分析结构(例如使用Cocke-Kasami-Younger算法[27]或斯坦福分析器[28])建立因子图,从而在接地空间上分布。然后,G3模型假设语言元素的基础是独立的,并考虑了单个词组之间的分布。这些因子分布采取对数线性模型的形式,表示语言元素与其指示基础之间的二元对应变量映射。再次,可能的基础包含在采用环境混合模型形式的地图中。该模型是训练在与他们相应的地面配对的话语语料库上。因此,可以基于语言的多样性仅受语法规则和训练数据丰富性的限制。 G3模型中的推论包括将对应变量设置为TRUE,并在可能的地面空间上进行搜索。这个空间可以包括所有可能的动作(动作),并且对于非平凡的机器人领域可以是任意大的。因此,推理的计算成本与世界模型中符号的幂集(即对象,位置和动作)成比例。在不牺牲结果符号的多样性的情况下提供有效推理的方式来近似这个空间在实践中是具有挑战性的。
霍华德等人。 [7]提出了分布式对应图(DCG),它扩展了G3模型,保持了解释不同自然语言话语的能力,同时提高了推理的效率。 DCG模型将语言理解为一组离散的约束条件(例如那些适用于基于约束的运动规划器的约束条件,尽管也可以使用G3所使用的符号来代替约束条件),然后可以将其转换为连续动作一个下游计划者,而不是用一组样本来近似连续的路径。 DCG模型中的推理不是搜索接地空间(约束),而是搜索与每个组成接地相关的对应变量。 DCG与每个短语关联的因素数量与接地的条件独立分量的数量成正比。因此,该模型在图形模型中的多个因素之间分配推理,这可以减少约束条件数量从指数到线性的推理成本。虽然效率比G3更高,但在复杂的环境和任务中,接地组件的数量很大的情况下,DCG的运行时间仍可能过高。为了增加这个限制,Chung等人[29]提出了分层分布式对应图(HDCG),它是DCG的一个扩展,它假定候选接地的空间可以基于环境中的话语结构来约束。 HDCG首先使用DCG来定义一组规则的分布,以确定哪些符号被视为组成部分。这个分布然后被第二个DCG用来定义一个减少的候选基础集合的分布。然后在HDCG中进行推理,与DCG一样,通过搜索一组对应变量。对于接地空间较大的任务和环境,HDCG优于DCG和G3型号,而不会牺牲准确性。
3. 机器人学中的空间推理和制图
在世界上,机器人的移动和行为需要被赋予对其环境的
全文共49076字,剩余内容已隐藏,支付完成后下载完整资料
英语原文共 22 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12000],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。