复杂条件下基于强化学习的自行模型的局部路径规划方法外文翻译资料

 2021-12-16 22:58:19

英语原文共 7 页

复杂条件下基于强化学习的自行模型的局部路径规划方法

文摘:利用大型自航模型在实际波浪条件下进行水动力和物理运动仿真试验,是研究船舶环境适应性的重要手段。在自行模型的航行试验中,必须仔细考虑包括各种港口设施、航行设施以及附近船舶在内的复杂环境,因为在这种密集的环境中,海浪和风对模型的影响尤为显著。为了提高自驱动模型的安全性,本文将基于强化学习的Q学习与混沌思想相结合用于模型的避碰,以提高局部路径规划的可靠性。仿真和海上试验结果表明,该算法较好地解决了自导航模型在海风和海浪干扰下的避碰问题,具有良好的适应性。

关键词:自航模型;局部路径规划;Q学习;避障;强化学习

文章ID: 1671 - 9433 (2014) 03-0333-07

1介绍

现代船舶的综合航行性能和环境适应性日益受到重视。然而,船舶模型油罐试验并不能完全模拟真实海况的影响。另一方面,真正的船舶试验是破坏性的,有很大的风险和危险,是非常昂贵的。因此,大型自航模型(以下简称SPM)在真实海洋环境中的实验成为研究船舶环境适应性的重要途径(Smu;n, 2009)。SPM的局部路径规划重点是控制SPM的方向和速度,以实现模型的自主无碰撞导航,同时保证航行安全和航行试验的顺利进行。规划算法获取整体环境信息,然后计算模型从当前位置到目标的无碰撞路径(Manley,2008)。Xmu; et al., 2007)。

由于局部路径规划是安全导航的基础,是SPM进行各种复杂试验的基础,因此对各种方法和算法进行了研究。Morphin算法是一个典型的算法(Simmons et al., 1996)。(Larson et al., 2006.),它是基于环境的网格模型。该算法首先沿船体两侧发射一系列弧线覆盖整个前网格,然后通过投票选出最优弧线,根据弧线半径确定航行速度。基于局部环境信息感知的避障算法,近场图(ND)方法,被Larson et al.(2007)采用。采用模糊逻辑平滑算法对ND算法进行了改进,考虑到船舶的高速行驶和ND算法的跳跃输出,对速度输出进行平滑处理(Wang and Zhang 2012)。在其他论文中,动态窗口方法(Dynamic Window Approach,简称DWA)作为一种避碰算法被用于多种无人驾驶水面车辆(Tang et al., 2011;Seder et al., 2007;Ogren等,2005)。Chomu; and Lian(2011)采用的方法是典型的分而治之的DWA策略,并通过真实的boat test进行验证,取得了良好的效果。但是这些方法没有考虑真实的航海环境,因此它们只适用于湖泊或平静的港口。在波浪和风的干扰下,很难满足船舶的航行要求。

针对上述算法的不足,将离线学习引入到基于近场图的避碰算法中。在动作选择策略中加入混沌算子,适应了Q学习,提高了SPM抵抗海岸海浪和风干扰的能力。

2 SPM局部路径规划的架构

在复杂避碰过程中,由于各种因素的影响,SPM在改变模型作用路径的同时,可能会偏离风、波等海洋环境的影响。改变SPM的作用可能会对安全产生不利影响。

如图1所示,SPM在航行过程中遇到障碍Oi。Theta;gmu;idance是从局部路径规划器出发的航向角的度数。在正常情况下,SPM会执行动作,从而成功地避免Oi。但是由于海风和海浪的扰动,可以表示为Theta;inf , SPM航向角的偏差,最终航向角可能为Theta;real,由Theta;inf和Theta;real组成。这可能导致SPM无法避免冲突。此外,风浪可能会干扰船舶的航行,影响船舶的效能和效率。因此,本文的基本思路是对Theta;gmu;idance给出一个修正角omega;,使其成为新的方向Theta;correct,使SPM处于Theta;correct和Theta;inf的双重作用下。

图1 海风对自航模型安全的干扰效应

基于以上分析,构建结构如图2所示。该结构的主体部分是一种典型的使用切线法的近场图算法,其细节由Wang et al.(2012)解释。该方法具有结构简单、复杂度低的优点,被许多局部规划系统所采用。在本文中,考虑偏差和海洋影响因素,对规划系统的输出进行了修正。并利用模糊Q学习算法计算校正角,优化规划结果,提高SPM的效率。这里需要说明的是,由于风在本文中易于测量,对SPM平台的影响较大,为了简化建模过程,只考虑风,不考虑其他干扰。

3 模糊Q学习模块的描述

Q学习的思想不是建立一个环境模型,而是直接优化一个Q函数,从而避免复杂的建模和分析过程(Cao et al.,2008)。这里的干扰因素及其对SPM的影响都非常复杂,很难建立精确的数学模型,所以选择Q学习是一个非常合适的尝试。

本文将Q学习与模糊逻辑方法相结合。首先对状态信息进行模糊化处理,然后通过模糊推理系统选择一个动作。Q学习用于不断更新规则库,直到权向量收敛为止。在Q学习的帮助下,完整的模糊规则库将提高系统的适应性(Tang et al., 2012)。

图2自行模型规划系统框架

3.1 Q学习的输入

Q学习的输入状态包括风对SPM的相对方向和速度。风方向分为10个区域,即将海风的模糊场设为F={HW,RHW, FRW, RRW,RTW,TW, LTW,RLW,FLW, LHW}。如果变量表示相对风向可以表示为Theta;wind, Theta;wind的模糊描述如表1所示。

图3展示了Theta;wind的隶属度函数。

表1 风向模糊场

图3 Theta;风在局部坐标下的隶属度函数

由于SPM的测试风速必须小于10 m/s,因此将风速分为4个模糊字段,最大值为8 m/s。设风速为Vwind,其模糊场设置为FV={LA,LB,GB,MB},即微风、微风、微风、和风。Vwind的模糊描述如表2所示,随波高变化。

图4为Vwind的隶属度函数。

表2 风的模糊场

图4风速的隶属函数

资料编号:[4854]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。