Robotics and Autonomous Systems 90 (2017) 4–14
Contents lists available at ScienceDirect
Robotics and Autonomous Systems
journal homepage: www.elsevier.com/locate/robot
Toward generalization of experimental results for autonomous robots
Francesco Amigoni *, Matteo Luperto, Viola Schiaffonati
Artificial Intelligence and Robotics Laboratory, Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, Piazza Leonardo da Vinci
32, 20133 Milano, Italy
article info
Article history:
Received 26 August 2016
Accepted 31 August 2016
Available online 11 September 2016
Keywords:
Autonomous robots
Experimental methodology
Generalization of experimental results
a b s t r a c t
In this paper we discuss some issues in the experimental evaluation of intelligent autonomous systems,
focusing on systems, like autonomous robots, operating in physical environments. We argue that one
of the weaknesses of current experimental practices is the low degree of generalization of experimental
results, meaning that knowing the performance a robot system obtains in a test setting does not provide
much information about the performance the same system could achieve in other settings. We claim that
one of the main obstacles to achieve generalization of experimental results in autonomous robotics is the
low degree of representativeness of the selected experimental settings. We survey and discuss the degree
of representativeness of experimental settings used in a significant sample of current research and we
Representativeness of experimental
settings
propose some strategies to overcome the emerging limitations.
copy; 2016 Elsevier B.V. All rights reserved.
1. Motivation
*
The call for a more rigorous experimental methodology cur-
rently plays a strategic role in the practical assessment of comput-
ing and represents a way for reflecting on its disciplinary status in
between science and technology. This call puts attention on several
questions: from the dispute on the name (should computing be
called a science or not?) to the investigation of the sciences of
the artificial, including the debate on whether and how traditional
experimental principles (like control, comparison, repeatability,
reproducibility, and generalization) could be applied to computing.
However, few studies have systematically discussed the different
ways the concept of experiment has been intended and employed
in practice (including, for example [1]).
Here, we consider Artificial Intelligence and Autonomous
Robotics as subfields of computing. How experiments are con-
ceptualized and discussed in the case of intelligent autonomous
systems represent no exception with respect to the above picture.
In this paper, we focus on intelligent autonomous systems oper-
ating in physical environments, namely on autonomous robots, but
many of our considerations and results hold also for other kinds
of intelligent autonomous systems. Some solutions for developing
reliable experimental methodologies have emerged in the practice
of autonomous robotics, such as the use of data sets (like Radish [2]
and Rawseeds [3]), the development of reliable and partially val-
idated simulation tools (consider for example USARSim [4] and
Corresponding author.
E-mail addresses: francesco.amigoni@polimi.it (F. Amigoni),
matteo.luperto@polimi.it (M. Luperto), viola.schiaffonati@polimi.it
(V. Schiaffonati).
ttp://dx.doi.org/10.1016/j.robot.2016.08.016
0921-8890/copy; 2016 Elsevier B.V. All rights reserved.
Gazebo [5]), and the development of benchmarks and scientific
competitions (see, for example, RoCKIn [6]). However, systematic
analyses on how the notion of experiment is used in the field
and how good experimental practices could be developed, pro-
moted, and adopted are still quite rare [7]. Besides methodological
complications in adopting rigorous experimental protocols when
dealing with artifacts such as intelligent autonomous systems (the
most important one perhaps being the lack of independence of the
experimenter, since usually the experimenter coincides with the
designer), the experimental assessment of intelligent autonomous
systems presents other difficulties, given the fact that these sys-
tems are often made to operate in physical environments and to in-
teract with the real world. The focus on replicable and measurable
robotics research, that has recently gained momentum in a part
of this community, represents an important attempt to overcome
some methodological, epistemological, and practical issues that
slow down the industrial take-up of new solutions [8].
Among the limiting factors, we focus on the following ones
that, although not exhaustive of the difficulties arising, offer a
view on some of the issues often enc
剩余内容已隐藏,支付完成后下载完整资料
机器人与自治系统
——自主机器人实验结果的推广
摘 要
在本文中,我们讨论了一些问题,在实验评价的智能自治系统,专注于系统,如自主机器人,在物理环境中运行。我们认为,目前的实验实践的弱点之一是实验的泛化程度低结果,意味着知道机器人系统在测试设置中获得的性能不提供关于同一系统的性能的许多信息可以在其他设置中实现。我们主张实现自主机器人的实验结果的主要障碍之一是所选实验设置的代表性程度低。我们调查和讨论学位在一个重要的样本,目前的研究和我们使用的实验设置的代表性的实验。
关键词:自主机器人、实验方法、实验结果推广、代表性的实验、设置
- 动机
目前,对更严格的实验方法的呼吁在计算的实际评估中扮演了一个战略性的角色,并代表了一种反映科学技术之间学科地位的方法。这一呼吁将注意力放在了几个问题上:从名称的争议(是否应该称为科学?)到对科学的人工研究,包括关于是否和传统的辩论实验原理(如控制,比较,可重复性,再现性和泛化)可以应用于计算。然而,很少有研究系统地讨论了不同的问题。实验的概念已经被设计和使用了在实践中(包括,例如[1])。
这里,我们考虑人工智能和自治机器人技术是计算的子领域。在智能自治系统中,实验是如何概念化和讨论的,在上图中也不例外。在这篇论文中,我们关注的是在物理环境中运行的智能自主系统,也就是自动机器人,但是我们的许多考虑和结果也适用于其他类型智能自主系统。一些发展的解决方案在实践中出现了可靠的实验方法自主机器人,如使用数据集(如萝卜[2]和Rawseeds[3]),可靠和部分验证的模拟工具的开发(例如考虑USARSim[4]和露台[5]),和基准和科学的发展罗金比赛(见,例如,RoCKIn [6])。然而,系统分析了实验的概念在这个领域中是如何使用的如何开发良好的实验习惯,推广,采用仍然很罕见的[7]。除了方法论采用严格的实验协议的复杂性处理诸如智能自动系统之类的工件(最重要的可能是缺乏独立性实验者,因为通常实验者都是和设计者),智能自主的实验评估系统还面临着其他的困难,因为这些系统通常是在物理环境中运行的,与现实世界一起行动。重点是可复制和可测量的机器人研究,最近在一定程度上获得了动力在这个社区中,代表着一个重要的尝试一些方法论的,认识论的,和实际的问题减缓工业的新解决方案[8]。
在限制因素中,我们关注以下几个方面尽管没有详尽的困难,但提供一个关于实验中经常遇到的一些问题自动机器人的评估。
bull;机器人与物理环境的相互作用很大程度上是不可预测的,即使可能的数据来自于传感器是有限的(例如,一个简单的数码相机8位720times;720像素可以返回8720times;720可能的图片),他们的蛮力枚举和nave分析是远远的。任何可想到的计算设备的威力。执行机构也有类似的考虑。
bull;“自然”指标和协议评估自主机器人的性能在很大程度上是失踪。例如,考虑的困难在评估人类和机器人之间的相互作用的质量[9]。此外,通常情况下,不存在引用性能(例如作为地面的事实),可以比较自动机器人的性能。
bull;自动机器人被测试的物理环境在数量和性质上都是有限的,有时也不是实际上是其他真实环境的代表,例如,一个服务机器人的大学建筑开发和测试的结果可能与此截然不同相同的机器人所设计的住宅公寓去工作。
在我们看来,这些限制因素(包括其他因素)是负面的对自主机器人的实验评估,两者都有影响在一个具体的层面上,在一个更抽象的层面上。
从一个具体的角度来看,当目标是评估可行性和所提议的方法或系统的特性特别针对其他的替代方法或系统,上面的限制意味着有几个资源(特别是时间)必须在许多情况下,只需要获得部分和较弱的结果。如果对结果的评估有严格的实验协议传统上很少在自动机器人中扮演重要角色,重要的是要认识到他们的中心地位和工作的重要性增加他们的领域采用[7]。
从更抽象的角度来看,我们可以看到困难以上概括为达到所认为的目标的极限实验方法的两个主要原则:比较和泛化[10]。比较关注的不是能力只知道过去已经做了什么,但是也可以将新的结果与旧的结果进行比较。例如,需要完整的文档和真诚的原则报告,以及积极的结果,异常和消极结果可以揭示重要的信息。泛化是在一个框架内解释实验结果的能力比为实验而开发的特定的一种更广泛为了支持更普遍的结果,这不仅需要收集数据,但也要解释和解释它们才能得出正确的含义,考虑到解释和解释不容易实现,也不可能提供明确的结果。需要指出的是,泛化是紧密相关的还有两个传统上被认为是实验方法的核心:重现性和可重复性,再现性是不同的实验者的可能性从相同的初始条件开始,获得相同的结果。使用相同的仪器和参数,并采用同样的实验技术。可重复性是一个事实一个适当的实验必须是一系列试验的结果保证实验结果是系统的,并且有不是偶然的,特别是在统计学上在重复试验中可以识别的模式实验在推广中起着重要的作用。
实现比较和概括的局限性阻碍科学发展和工业开发。在第一种情况下,原因是很大的无系统的努力致力于实现方法和实验测试他们,在第二种情况下,主要的原因是提议的方法和系统是不容易的,根据它们的特点和它们的适用性进行比较不同于他们所开发的环境是没有保证的。
在提高实验活动质量的努力中在自动机器人技术中,一些尝试已经取得了传统的实验是如何在传统中进行的科学,如物理学和生物学,并在“科学”中进行翻译。自动机器人技术的通用实验原理科学[11]。然而,在处理工件时,机器人显示了一个强大的工程组件,并且不能完全被吸收。传统的科学领域,实验一般都是为了假设测试目的和强大的理论背景而进行的,在机器人技术中,实验主要是演示一个给定工件正在进行的工作的目标参考模型(例如,它的预期行为),可能它比其他类似的工件更有效。然而,同样的时间,最先进的机器人系统非常复杂,他们的行为很难预测,即使是他们自己的设计师,尤其是考虑到他们与自然的互动时在这个意义上,自主机器人的实验也有理解这些工件如何工作和交互的目标因此,对世界来说,与实验类似在自然科学中。
有了这篇论文,我们想为大家的讨论做贡献在自动机器人的实验中概括,即实验结果是否和实验结果在特定情况下获得的,可以扩展到其他情况。我们认为这是实现泛化的障碍之一自动机器人的实验结果很低被选中的实验环境的代表性。试图定义代表性和它的重要性概括,我们调查了在实验中采用的实验设置大满贯2014年ICRA的相关论文显示,代表性目前并不总是被认为是重要的。我们特别讨论的是代表性问题数据集、模拟和竞赛的视角是用来评估自动机器人的主要方法。此外,我们还提出了一些具体的改善措施在实验中使用的设置的代表性自主机器人。
这篇论文的主要原始贡献,其性质更多的是方法论上的,而不是技术上的,是对实验结果的泛化问题特别是实验环境的代表性,确定了一些关于代表性的当前趋势,以及提出一些提高代表性的策略。
2 .代表性实验设置
在这一节中,我们提供了对代表性的初步定义。
一般来说,实验活动是在设置中进行的(环境和配置),应准确指定。实验结果将传递有价值的信息。关于机器人系统的一般性能如果这些设置与系统可能的相似之处在于操作。理想的目标是将实验结果扩展到其他设置是在设置中对机器人进行评估有代表性的,因为它的泛化程度实验结果取决于代表性的程度在获得结果的设置中。
我们可以说,一个特定的实验环境具有同样的代表性因为它的特征接近于类在机器人可以操作的环境中。一个环境的特征,例如一个循环的存在在室内环境中的走廊。实验设置的特点和测量的指标它们的相似之处,可以用来精确地定义'表征'是一个很大程度上取决于具体领域的开放问题自动机器人技术。
这里,我们不打算提供任何具体的建议,但是我们列出了一些(非详尽的)需求对这些特性和指标的定义和评估,至少非正式的,实验环境的代表性。
bull;实验环境是如何组成和结构的?例如,在模拟设置的情况下,这个量考虑它是一个虚构的环境还是它的形状根据真实环境。
bull;实验设置代表什么?例如,在大学建筑的案例中,这相当于如果环境是“准”或非常具体的,像麻省理工学院占据建筑[12],由著名的设计建筑师Frank O.Gehry,代表了一个相当独特的环境,有一些在其他地方很难找到的特征(例如,墙上的钝角和锐角它们之间通常是斜的而不是垂直的到地板上)。
bull;为什么会选择实验环境?例如,当测试一个路径规划方法,复杂的环境(迷宫似的)可以选择的方法在压力之下。
3 .一项有关自主机器人的代表性的调查
在这一节中,我们调查了目前关于自主机器人研究的代表性样本的代表性程度,主要是它与周围环境相互作用。我们考虑了57篇在诉讼过程中被IEEE关于机器人和自动化的国际会议(2014.1举行的“国际机器人与自动化会议”)标记为“大满贯”的论文。
ICRA是机器人技术的主要会议之一,我们可以假设这是当前的一个全面的关于自动机器人研究的图景。关于大满贯的论文(同步定位和地图)特别适合讨论。实验中所使用的环境的代表性程度,因为它们显示了构建表征的方法从感觉数据开始的物理空间(都是关于世界和机器人的姿势)。关于大满贯的论文在ICRA中代表的很好(在其他主要会议上机器人学),因为这个领域已经被研究了很多年了现在被认为是成熟的,已经发展了坚实的背景与此同时,有趣的研究仍在进行中在大满贯中,新的方法和实验方法是不断提出。
我们分析的57篇论文是相当不均匀的采用不同的机器人平台(轮式移动机器人,天线机器人、无人驾驶汽车等)配备了各种各样的传感器(RGBD和传统相机、激光雷达、GPS等)。对于我们的调查,我们只考虑了55篇论文,这两篇被排除在外的论文分别是基于RGBD摄像头对三维大满贯方法的基准测试的建议[13]和一些在第十九世纪期间的比较大满贯的方法和一些地形方法[14],显然,他们超出了我们的调查范围。
对于每篇论文,实验评估执行3.5中的设置(例如,环境;标准差是5.9),在将近一半的论文中,实验评估是在1或2个环境中进行的,报告的结果都是定量的,基于一些指标(比如机器人姿态的准确性);定性的,基于视觉检查(如视觉检查由此产生的映射不存在不一致的情况)。良好的实验实践的原则之一(比较),有趣的是,有36%的论文分析了比较他们提出的反对其他方法的方法之前的作品,这个百分比应该被认为是好的,因为它并不总是可能的(例如,由于比较结果不同的方法所做的不同假设)和这种比较有时意味着要进行大量的工作或者重新执行其他研究人员编写的代码。
表3显示了我们调查的一些结果。
第一个一般的评论是在我们调查中关于用实验方法评价大满贯的方法设置的类型(表1)。在线测试方法之间的真正的机器人平台,在现实环境中(或移动在虚拟环境中移动的模拟平台)使用之前收集的数据对它们进行离线测试,这是很明显的对第二种选择的偏好,采用83.6%的方法我们考虑过的论文,离线实验是由使用之前录制的数据集作为输入的来源。一个数据集可以由感觉的日志文件组成活动记录(包括测程法)而移动机器人在环境中,虽然这两者不是互斥的,大部分的论文(75%)我们分析倾向于采用只有一个方法(在线或离线),特别是数据集的使用专为论文目的而收集的关于使用公开数据集的调查报告线下评估。在在线评估中,模拟是首选的在现实世界的实验中。
61.2%的被考虑的论文在室内环境进行测试。而50.9%的论文现在在户外测试环境(表2).两种文件的数量室内和室外测试相关的(约20%)。请注意,在一些论文(约7%)的环境的本质没有指定测试。
其他因素的代表性实验设置(表3)。大部分的调查论文(85.5%)报告有关创建和结构的相关细节实验设置,例如,在数据集的情况下详细信息指定了如何收集数据,包括类型和传感器和被使用的机器人平台的模型。相对较少的注意力放在报告一般的情境上这些设置代表什么。一个好的部分(70.9%)考虑到论文至少有一些一般性的迹象实验已经完成了,就像“在我们大学的停车场里进行的实验一样”。剩下的29.1%没有提到实验的地点已经发生了,除了非常一般的信息,比如“实验已经在室外进行了”。实验中所考虑的具体设置不那么频繁,例如,当有人说数据是在大学的实验室里,没有具体的信息关于他们被收购的确切实验室,56.4%被调查的论文提供了独一无二的信息识别实验设置。我们认为规范如“在我们实验室”或“在我们办公室”足够详细。
在这一层面,作者在办公室和实验室使用的百分比实验设置是相关(63.6%)。此外,也在这种情况下关于设置的精确信息被报告了,一些重要的数据被省略了,包括时间(日期或季节)以及实验的光和天气条件执行。直觉上,这些数据对评估被考虑的环境的代表性程度和将结果推广到其他设置的可能性是很重要的。
关于代表性的一个基本问题是支持实验环境选择的动机。81.8%的调查论文,没有理由证明为什么会选择一些实验环境,在所有这些情况下,在选择的设置中获得的结果的原因应该对行为进行可靠的论证,系统的性能没有得到应有的解释。调查显示,主要(通常是隐含的)动机实验设置的选择:(a)公开使用已经在其他论文中使用的可用数据集是一种引人注目的来展示大满贯的效果提出了选择方法和(b)一些设置,因为它是公认的(后验),他们带来了令人满意的结果。一般来说,没有提供任何理由来显示这些特性设置拥有并激发这些特性的存在允许有效地评估所提议的系统,并概括所获得的结果。因此,代表性的程度实验的设置不被认为是主要的问题我们的论文样本。
在这一节的后面,我们将更深入地讨论类型的实验设置确认以上——离线实验设置(使用自身产生的数据和使用公开可用数据集)和在线实验设置(现实世界实验、模拟和比赛)——从他们的角度程度的代表性。
3.1 .离线实验
基于数据集的离线实验,尤其当有一个单向的交互从环境到机器人有效,也就是专注于机器人感知的时候,这与数据集只允许重新运行固定序列的事实相关联机器人在环境中所做的操作。
使用数据集的离线实验尤其有趣从“代表性”的角度来寻找原因。
bull;完美的知识,或者是真实的真相
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[485637],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。