英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
MARL-Ped:一种基于多Agent强化
学习的框架模拟行人群
Francisco Martinez-Gila,*,Miguel Lozanoa,
Fernando Fernaacute;ndezb
a瓦伦西亚大学 工程学院 计算机科学系(ETSE-UV)
b马德里卡洛斯三世大学 计算机科学系
摘要
由于有许多不同程度的行为建模,行人模拟很复杂。在最低级别,代理之间存在本地交互;在中层,战略和战术行为看起来像是超越或路线选择;在最高级别有着必不可少的路径规划。基于代理的行人模拟器要么专注于特定的层次(主要是较低的层次),要么定义类似分层体系结构的策略来独立管理不同的行为层次。在我们的基于多智能体强化学习的行人模拟框架(MARL-Ped)中,这种情况则作为一个整体来解决。每个包含的代理使用无模型强化学习(RL)算法自主学习以在虚拟环境中导航。这项工作的主要目标是凭经验证明MARL-Ped生成适应行人场景所需水平的学习行为。在行人建模文献中描述了三个不同的用于测试我们方法的实验:i)选择最短路径与最快路径;ii)在狭窄的走廊内沿相反方向行走的两组行人之间的交叉口;iii)两种在迷宫中以相反方向移动的物质。结果表明MARL-Ped解决了不同的问题,学习了具有行人特征的个体行为(产生足够基本图的局部控制,路线选择能力,集体行为的出现和路径规划)。此外,我们将我们的模型与Helbing的社会力量模型进行了比较,这是一个著名的行人模型,它显示了两种方法产生的行人动态之间的相似性。这些结果证实了MARL-Ped产生了可变的合理行为,产生了类似人类的宏观行人流。
关键词:路径选择,路径规划,Sarsa(lambda;)
________________________
*通讯作者
电子邮件:Francisco.Martinez-Gil@uv.es(Francisco Martinez-Gil),Miguel.Lozano@uv.es(Miguel Lozano),ffernand@inf.uc3m.es(Fernando Fern#39;andez)
1. 简介
在现有技术中,有几种着重于引导个体(微观模拟)产生个体和群体行人行为的行人模拟方法。微观行人模型考虑了个体间的相互作用,并尝试在时间上模拟每个行人的位置和速度。在最具代表性的微观行人模型中,我们有细胞自动机模型[1],行为规则模型[2],认知模型[3],海冰社会力量模型[4]和心理模型[5]。在微观模拟中,个体被模拟为与其他人互动和与环境互动的独立实体,它决定是否修改其动态状态(如计算一组力量的总和)。微观模拟的决策过程采用层次分析法[6]:战略性,战术性和操作性。目标和路径规划选择在战略层面上,路线选择在战术层面上执行,并且在运行层面上采取修改运动状态的即时决策。一些专注于复制本地交互的微观模拟只能在操作层面上工作[7]。
微观模型中的一个常见问题是个体行为与群体行为之间的关系。传统上,基于规则的系统[8,4]流行于模拟本地交互领域。然而,由于多智能体规避碰撞的复杂性,很难产生遵循本地规则的逼真群体运动[9]。大多数基于代理的模型将本地交互与必要的全局路径规划分开。要做到这一点,主要有两种方法。一种是预先计算或用户编辑一个表示为指导场[9]的路径规划图或者一个势能和速度场[10]。其他包括在分层模型中分离本地和全局的导航问题[11]。在代理人模型内部进行划分的优点是可以引入代理人行为的智能或心理特性[5,12]。正确解决这种关系的一个指标是当行人群处于特定情况下时,某些集体行为就会出现,就像现实世界中发生的那样。一些出现在特定的群体情况下几种集体行为,例如走廊中的车道生成[13],速度快慢效应[14],以及瓶颈处拱形的堵塞[15,13]。社会力量及其变量[4],基于代理的模型[16]和基于动物的方法[17],都是使用不同方法在新兴集体行人行为中取得成功的微观模型。在行人模型中,抓取这些现象、集体行为或自组织现象的能力是模型质量的指标。
这样,基于多智能体RL的行人模拟框架(MARL-Ped)是在第5节中描述的三种不同情况下进行评估。每种情况都面临着不同的模拟问题。这个框架构成了对现有微观模拟器的不同方法,它使用学习技术为每个模拟行人的导航创建一个单独的控制器。MARL-Ped框架提供以下好处:
- 行为建立,而不是行为建模。用户不必指定指导规则或其他模型来定义行人的行为。只有对代理人行为的高级限制包括在框架中并作为立即奖励形式的反馈信号(即达到目标是好的,代理人获得积极的奖励;走出境界是不好的,然后它会得到负面的回报)。
- 实时模拟。每个具体agent(行人)的决策模块都可以计算出来。在仿真时间内,只需要增加线性函数的预先计算条件即可获得相应的最佳动作。
- 它能够产生紧急的集体行为。
- 多层次的学习行为。由此产生的学习行为控制着agent的速度,这是一个操作层面的任务,但是他们也能够进行路径规划和路线选择,这些任务分别是战略层面和战术层面的任务。
- 异构行为。学习的行为对于每个agent都是不同的,在模拟中提供了可变性。这种异质性对于学习行为是固有的。
我们工作的目的不是为了提供一个新的行人模型(这意味着与实际数据相匹配),而是为行人群创造合理的模拟(就其对动态行人的适当性而言)在虚拟环境中使用。在这种动画背景下,基于智能体的行人模拟是一个活跃的研究领域[18,10],它考虑了从小群体到人群的模拟。通过上述实验,我们证明MARL-Ped能够生成逼真的模拟行人群,解决不同层次(操作,触觉,战略)水平的导航问题,处理前面提到的个体/群体行为关系问题集体行为的出现。
为了表明学习行为与行人相似,我们将结果与Helbing的社会力量行人模型中定义的类似情景进行比较。这种行人造型领域的著名模型与MARL-Ped具有共同特点:它是一种微观模型,它也使用驱动力来获得所需要的速度。该比较是通过基本图和密度图进行的,这些图是行人动力学分析中常用的工具。
本文的其余部分包括以下几部分。在第2节中,我们将介绍相关工作。在第3节中,描述了RL的一些基本原理和框架的概述。第4部分描述了MARL-Ped的模块。在第5节中,我们将描述场景的配置。在第6节和第7节中讨论了结果,第8节揭示了结论和未来的工作。
2. 相关工作
从理论基础的角度来看,我们的工作与Hoogendoorn的行人路线选择模型相似[19]。在这项工作中,作者提出了一个基于Bellman的优化过程来优化设计为路由属性加权总和的效用函数。通过这种动态编程,可以计算不同空间区域的值函数并用于查找行人的路线。在我们的方法中,效用函数被立即奖励函数所取代,该函数重视agent在其环境中进行的交互。其主要优点是效用函数的替代,这个函数假设一个通过奖励函数批评代理人所采取行动的后果的环境模型。像Hoogendoorn的模型一样,我们的方法也会重新产生路径选择问题。通过人群模拟(电脑动画),其他工作使用优化来模拟行人行为的过程。最近,这项工作[20]扩展了最小化原则[21],以使用基于优化的框架对人群中的人体运动进行建模。 Still的博士学位论文(其中引入了军团人群模拟器)也使用最小的算法[22]。 Helbing等人的工作[23]表明,在真实的行人,存在一个学习过程来优化自动响应,最大限度地减少碰撞和延误。在我们的方法中,构成MARL-Ped每个代理商决策任务的价值函数是使用RL技术[24]计算的,这也意味着基于Bellman的优化过程。
过去的几年中,在计算机图形、动画和模拟有关的研究越来越多地中使用RL。例如,使用RL来学习一个从一组动作捕捉数据中选择帧来驱动和控制代表拳击手对抗的模型的策略[25],使用RL技术来学习一个将短运动片段中的运动流组装成游戏环境中的动画角色的策略[26]。实现通过障碍物避免从动作捕捉数据集合中选择适当的框架来动画人类角色想法[27]。
在我们的方法中,我们以不同的意图来使用RL,因为,我们需要把学习过程放在模拟的真正主角身上,而不是学习一个决策者选择适当的框架来创建动画,以创建在物理环境中移动以解决多代理任务的自主代理。
3. 背景和概述
在本节中,我们将概述本文中使用的RL基本概念,并介绍了MARL-Ped的总体方法。
3.1 RL背景
RL是机器学习领域的一个强有根据的领域,致力于解决决策问题。 RL问题可以建模为马尔可夫决策过程(MDP)。 MDP是由状态空间S,动作空间A,概率转移函数P:Stimes;Atimes;S→[0,1] 和奖励函数rho;:Stimes;Atimes;S→R 构成的四元组。状态信号st描述离散时间t时的环境。假设A是一个离散集合,在一个状态中,决策过程可以从A的行动空间中选择一个动作。环境中的动作的执行将状态改变为遵循概率转移函数P(st, at,st 1)= P r {st 1 = s#39;| st = s,at = a},即在状态s处于时间t并且执行动作a时,在时间t 1时进入状态s#39;的条件概率。每个决策都伴随着由奖励函数rt 1 =rho;(st,at,st 1)给出的立即标量奖励,表示在st状态下做出的决策的值。该过程的目标是在每个时间步骤t最大化定义的预期折现收益为:
其中参数gamma;isin;[0,1 ]是折扣因子,并且它的期望被用于概率状态转变P [28]。注意,折扣回报不仅考虑了在时间t获得的即时奖励,还考虑了未来奖励。贴现因子衡量未来奖励的重要性。动作价值函数(Q函数)Qpi;:Stimes;A→R是给定策略pi;的状态动作对的期望收益率:
因此,学习算法的目标是找到一个最优的Q,例如Q* (s,a) ge; Qpi;(s,a) forall;sisin;S,aisin; A, forall;pi;。如方程3所定义,最优策略pi;*(s)自动从Q导出。
如果转移概率函数P是已知的,则可以使用动态规划来计算Q值。当它未知时,就可以像在我们的问题域中一样使用RL。
3.2 MARL-Ped概述
MARL-Ped是一个多代理框架,它有两种代理:学习代理和环境代理。虽然学习代理的数量是由实验定义的,但只有一个环境代理。 MARL-Ped有两种工作模式:学习模式和模拟模式。在学习模式中,学习代理使用RL学习一个近似最优值函数Q*使它能够在每个时刻控制分配的虚拟手势的速度。一旦学习完成,就构成了代理商决策模块的核心。在模拟模式中,学习代理使用公式3遵循从Q导出的近似最优策略pi;(s)。环境代理在两种模式下都以相同的方式工作。它负责3D虚拟环境,每个学习代理都由一个虚拟的行人代表。每个代理被设计为一个独立的计算过程,该过程遵循使用消息传递接口(MPI)编程模型[29]的并行架构的分布式存储器模型。沟通发生在每个学习代理和环境之间。这样,学习代理之间没有沟通。
MARL-Ped的动态是基于时间步调的。在每个时间段t,所有学习代理都按照以下步骤与环境进行交互:
- 步骤1:每个学习代理从环境代理接收描述当前状态的单个原始数据st和在步骤t-1的先前决策的奖励rt-1。如果环境没有信息来判断行动是否适当,奖励值将为零。
- 步骤2:每个学习代理将接收到的原始数据转换为通用状态空间st。
- 步骤3:每个学习代理选择要执行的动作。在学习模式下,学习算法将会使用状态st和奖励rt-1。
- 步骤4:环境代理获取学习代理的行为并执行。每个学习代理控制特定的虚拟行人环境的行为。新的行动改变了体现的虚拟行人的动态。然后,在剩余时间段内用新动态模拟场景。
在模拟模式中,环境代理生成一个文件(以帧为单位),其中包含关于构成虚拟人体的虚拟行人的位置和速度的时间信息输入图形引擎。
4. MAEL-Ped框架描述
图1显示了MARL-Ped代理的功能图。这些模块已被列举为标签(Mi)以便更容易识别。
4.1 学习代理模块描述
学习代理中有两个抽象任务:首先是计算广义状态空间,其次是决策过程。当学习模式处于活动状态时,决策任务从零开始通过RL过程改进。当模拟模式激活时,决策任务包括遵循学习策略pi;。使用公式3计算pi;(s)的成本是不变的,为实时模拟或交互式环境提供了一个有效的决策模块。
图1:MARL-Ped框架的功能模式
特征提取和概化模块(M1)
每个代理从环境中接收由分配的具体虚拟行人感知的原始信息。这些信息被转换成描述代理状态的真实特征。
每个代理的状态空间用图2中显示的特征建模。所选特征提供关于代理自身运动状态的本地信息,相邻代理的运动状态,以及关于代理的最近静态对象(如墙)的位置信息。以前在行人模型中已经使用了类似的特征,并且他们被认为与pedes-trian [7]的运动学描述相关,或者描述了碰撞的迫近性[30]。值得注意的是,这种状态空间表示在RL框架中是固定的。在每个特定实验中,都会选择这些功能的一个子集。例如,在没有墙的环境中,与障碍物相关的特征被禁用。
描述状态的特征是实值的,因此需要一个泛化过程来
全文共23174字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12227],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。