基于深度强化学习和大规模MIMO技术的无人机导航外文翻译资料

 2022-08-08 10:10:08

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度强化学习和大规模MIMO技术的无人机导航

Hongji Huang, Yuchun Yang, Hong Wang, Zhiguo Ding, Hikmet Sari, Fumiyuki Adachi

摘要 无人机(UAV)技术被认为是未来的一种很有前景的无线连接解决方案,而无人机导航作为其中最重要的开放性研究问题之一,引起了研究界的广泛关注。然而,现有的无人机导航方案无法实时捕捉无人机的运动并选择最佳的无人机—地面链路,严重影响了无人机的导航性能。为了解决这些基本问题,在本文中,我们通过大规模多输入多输出(MIMO)技术将最先进的深度强化学习与无人机导航结合起来。具体来说,我们通过选择最优策略,精心设计了一个用于优化无人机导航的深度Q网络(DQN),并提出了一种处理DQN的学习机制。借助强大的Q-Learning算法,DQN经过训练使无人机能够根据接收的信号强度做出决策来导航。仿真结果验证了所提方案与其它方案相比在覆盖范围和收敛性方面的优越性。

1 引言

未来的通信网络不仅要解决增量吞吐量和爆炸性流量问题,还要满足低能耗、高可靠性和高度多样化应用下的服务质量(QoS)要求。因此,无线连接技术受到学术界和工业界的普遍关注,部分研究人员提出了一些新兴技术,如利用气球[2]和无人机[3]。特别是由于高机动性和优越的视距(LoS)传播,无人机有很大潜力成为中继或终端等机载节点,因此它们被认为是未来网络的重要组成部分。

近年来,许多研究人员在提高无人机通信性能方面进行了大量的研究工作。Yang等人提出了一种无人机从给定位置的地面终端收集数据的无人机数据收集系统,用于优化能源消耗问题[4]。为解决无人机系统的续航问题,Xu等人提出了一种基于用户的主动缓存新方案,数值结果表明主动缓存是一种解决无人机系统续航问题的理想方案[5]。利用大规模多输入多输出(MIMO)技术提高系统容量的优点,Geraci等人研究了一种利用大规模多输入多输出(MIMO)的无人机小区系统,该方法可以提高接收可靠性[6]。

由于无人机的高机动性,无人机导航作为一项重要的技术已经应用于公共安全、紧急救援和搜索操作中。I. K. Nikolos等人提出了一种基于进化的方案,将经典遗传算法集成到繁殖遗传算法中[7]。但由于遗传算法的随机性和实现的复杂性,该方法无法实现可靠的无人机导航。T. Tomic等人提出了一种借助传感器的自主无人机导航方法(TF-UAV)以解决同时定位和测绘问题,但它需要机器人牺牲其灵活性[8]。当使用接收信号强度指标(RSSI)进行无人机导航时,如果不引入新的方法,就会出现深衰落而导致无人机导航性能下降。同时,无人机的移动范围往往很大,让其自动工作对提高通信覆盖范围具有重要意义。但由于无人机运动能量消耗大、导航速度慢等原因,传统算法无法满足无人机不断增长的覆盖要求。近年来,一种基于深度学习的无线通信方法将机器学习应用于无线通信领域,为无人机导航问题的优化提供了一种可行方法,其性能已在非正交多址(NOMA)[9]、大规模MIMO[10][11]、流量控制[12][13]、路由技术[14]、软件定义网络(SDN)[15]、无人机[16][17]和毫米波(mm Wave)通信[18]等方面被证实有很大的优越性。特别是Wang 等人提出了一种基于深度学习的无人机导航方法,该方法不需要提供地图信息的传感数据,但该方法不能快速收敛,难以应用于实时导航场景[17]。强化学习是机器学习的一个分支,可以利用过去的观察和奖励来解决无模型问题,是一种先进的通过行动集来生成控制策略的方法。值得注意的是,动作集的基数取决于状态的复杂性。2015年,Deepmind提出了一种基于强化学习的框架,名为deep Q-network(DQN)[19],将深度学习融入到Q-learning中。DQN是有效解决无人机导航等多智能体优化问题的一种工具。

受上述思考的启发,本文将深度强化学习技术引入大规模MIMO无人机导航中。本文的主要贡献如下:

1)首先,我们采用深度强化学习技术,通过大规模MIMO实现无人机导航。通过构造DQN得到基于接收信号强度的最优位置选择策略。与以往主要引入速度或地理位置的无人机导航方法不同,该方法收敛速度快且具有良好的覆盖性能。

2)其次,在开发的DQN的基础上,本文提出了一种基于深度学习的无人机导航性能优化方案。对DQN进行训练后,我们开发了一种覆盖更好、收敛更快的无人机导航模拟环境程序。此外,本文还提供了大量的数值结果来验证所提的DQN导航方案的优越性能。

2 理论分析

2.1 系统模型

我们考虑一个特殊的大规模MIMO系统,它包括一个带根天线的移动基站(BS)和架带有单根天线的无人机。根据已知的基于射线跟踪的无线信道模型,将第架无人机在时隙的信道模型表示为

(1)

、分别表示第个无人机在时隙的阵列响应和复增益系数;为第个无人机的入射角;和分别为其最小值和最大值;可以写成

(2)

这里需要注意为天线尺寸,为载流子波长。第架无人机增益系数的自相关函数可表示为

(3)

表示无人机接收的信号功率;为时间槽处的功率方位角谱,其描述了信道在角度域的功率分布。经常经历严重的深衰落导致无人机导航的严重误差。因此,我们提出了一种基于深度强化学习的方案来解决这一问题,以提高无人机的导航性能。此外,表示狄拉克函数,具有性质。进一步推导出第个无人机的信噪比为

(4)

为BS处的传输功率,为第架无人机的单位范数向量。此外,我们假设这个系统有噪声,所以加入了加性高斯白噪声(AWGN),其零均值且方差为。由于无人机导航是基于RSSI,所以可以用信噪比来计算即时奖励,如下一节所述。我们考虑每个无人机的最大通信距离为,将覆盖范围定义为无人机在下地面用户的通信距离。

2.2 基于DQN的无人机导航框架

在本节中,我们为无人机通过大规模MIMO导航提供了一个基于深度强化学习的框架。具体来说,我们首先制定DQN框架,然后制定合适的学习策略来训练该网络。此外,我们提出了一种高效的基于深度强化学习的无人机导航策略。

A. 深度Q网络

强化学习作为机器学习的一个分支,一直受到学术界和工业界的广泛关注。多智能体系统(MAS)为了获得最优状态与环境相互作用,寻找获得最大回报的最优策略。一般来说,强化学习可以看作是对马尔可夫决策过程(MDPs)的具体描述。它由四个元素组成:策略、奖励信号、环境和效用函数,这是解决高复杂性情况和捕捉现实场景的理想选择。

然而,传统的强化学习要求智能体采用基于高维输入的适当环境表示,并将过去已知内容转化到新状态。同时,它的适用性只覆盖了特征可以充分利用的低维区域。为了填补这些空白,我们提供了将深度神经网络集成到强化学习的DQN。由于深度强化学习已经成为处理复杂问题的一种有效工具,因此我们引入DQN来优化无人机导航问题。

在本文提出的DQN框架中,由于无人机系统中有32架无人机,因此输入层是一个32times;32times;4的空间,第一隐藏层是一个卷积(conv)层,包含8个4times;4滤波器,步长为2。在整流非线性运算之后,将第二层隐藏层设计成包含16个步长为2的2times;2滤波器的卷积层,在不丢失网络重要信息的情况下降低维数复杂度。然后,下一层也是一个带有16个过滤器的卷积层,这些过滤器的尺寸是3times;3,步长为1。剩下的隐藏层是一个拥有256个神经元的完全连接(FC)层。另外,输出层是FC层,为无人机导航优化提供最佳选择。

B. 学习策略

为实现无人机导航,我们在该算法的基础上提出了一种新的学习策略。首先假设状态空间代表接收的信号强度,该集合表示为。根据状态空间,假设分别为即时回报的均值、转移概率和效用函数,函数可表示为

(5)

表示策略,我们的目标是获得最佳策略;和分别表示状态和动作。具体来说,动作通过环境模拟程序执行,它根据来自BS的信息更新自己的状态和奖励;定义了区域的折现系数;表示状态空间。

图1 基于DQN的无人机导航框架

学习最近个时隙的信道状态后,在时隙获得的未来奖励函数表示为

(6)

是即时奖励函数,为时间参数。需要注意由无人机的信干噪比(SINR)决定,我们可以从无人机接收的信号采集信噪比。当无人机在不同时隙从一个位置移动到另一个位置时,SINR会发生变化,会随着SINR的变化而更新。式(6)是不同时间段奖励的总和,用于更新Q状态。假设为常数,为功率阈值,则可表示为

然后,我们得到最大Q函数为

(7)

注意到A作为动作空间,近似的累积状态函数为

(8)

在得到最大Q函数后,我们需要推导出最优策略。利用递归机制,Q函数可以更新为

(9)

其中为学习速率。由于接收信号强度随无人机位置的变化而波动,因此要求在不同位置上取不同值。例如,为了收集无人机靠近目的地时接收信号强度,就需要提高学习率。

假设为DQN在第次迭代时的权重,则DQN的目标值为

(10)

为了找到最优解,DQN的损失函数可以设计为

(11)

在推导出学习策略后,我们注意到需要对智能机器的行为选择和执行进行处理,所以提出了一种基于-贪婪的行为选择策略,表示探测概率。我们选择了概率为的贪婪策略的行为分布,并选择了Q值最大的行为。为了清晰地解释所提的基于DQN的导航方案,图1展示了基于DQN的导航框架,算法1和算法2具体描述了本文所提的基于DQN的策略。

算法1:基于DQN的无人机导航训练方法

1: 用随机的初始化表。

2: 用初始化目标DQN参数。

3: 初始化回放存储器。

4:构造DQN结构。

5: 启动环境模拟程序。

6: For 环境1,环境2,hellip;hellip;,环境 do:

7:将所有开始阶段初始化为零。

8: For do:

9:获取无人机接收的信号强度。

10:根据接收的信号强度获得即时奖励。

11:根据给定的概率选择一个动作。

12:观察即时奖励和下一状态。

13:将保存至。

14:从M中随机抽取小批量示例。

15: 根据式(11),采用随机梯度下降(SGD)平均值来训练DQN。

16: 更新DQN的网络参数。

17: 更新表。

18: End For

19: End For

算法2:基于DQN的无人机导航测试方法

1: 加载DQN框架。

2: 启动环境模拟程序。

3:Loop。

4:在一个时隙接收每个无人机的。

5: 在表中选择值最大的动作。

6: 根据行动更新每个无人机的位置。

7: 更新环境模拟程序。

8: 更新DQN的目标值。

如算法1所述,首先(第1-4行),我们随机初始化网络参数。为了提高学习稳定性,我们引入目标DQN,其结构与原网络相同,然后进行探索过程。该行为来源于当前DQN的高斯分布的混合噪声以维持探测。DQN使用SINR来更新奖励函数,因为SINR为无人机接收的信号强度,它可以反映无人机当前的位置。信道条件在不同位置是变化的,而SINR是一个能很大程度上反映信道条件的指数。通过尝试所有的行动以获得更好的奖励估计,无人机将选择一个最高效用的行动(即最高的奖励)并沿着这个方向飞行。接下来(第14-17行),我们使用小批处理方法从回放记忆中随机收集示例。根据式(11)中的损失函数,我们通过训练DQN来更新网络的权值和偏差。一旦无人机

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[258841],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。