面向3D用户的无人机蜂窝网络轨迹优化方案 ——一种双Q学习法外文翻译资料

 2022-08-08 10:10:39

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


面向3D用户的无人机蜂窝网络轨迹优化方案

——一种双Q学习法

Xuanlin Liu, Mingzhe Chen, Changchuan Yin

摘要 本文研究了在无人机蜂窝网络中,无人机作为用户服务飞行基站时,最大限度地满足用户需求的无人机轨迹设计问题,并且达到用户在允许的最大等待时间内对服务表示满意。轨迹设计是一个优化问题,其目标是最大限度地提高满足用户数。针对这一问题,我们提出了一种基于双Q学习算法的机器学习框架。该算法使无人机能够找到最大限度地满足用户数量的最优轨迹。与传统的Q学习算法相比,该算法采用相同的Q表选择和评价动作,可以将选择与评价解耦,避免了过高估计导致产生次优策略。仿真结果表明,与随机算法和Q-learning算法相比,该算法在满足用户数方面可以达到19.4%和14.1%的提高。

1 引言

无人机(UAV)通信具有机动性强、成本低等优点,被认为是未来通信系统的重要解决方案[1]。事实上,无人机已经被考虑部署在许多领域[2,3],例如无线电力传输、安全通信、中继、无线传感器网络和缓存。然而,无人机在通信系统的应用仍然面临着部署、有效资源配置、能源效率和轨迹设计等诸多挑战。

如今很多文献研究了与无人机无线通信相关的问题,如文献[4]的工作考虑了一个多无人机启用的无线通信系统,其中多个无人机安装的航空基站被用于服务一组用户。文献[5]的作者调查了无人机作为飞行基站的部署,以便向特定的地理区域提供飞行无线通信。在文献[6]中,作者提出了一个基于无人机的云无线接入网框架,为移动用户提供服务系统。文献[7]将无人机部署在蜂窝网络中,并设计了最佳频谱交易,以便提供暂时的下行数据卸载。在文献[8]中,作者提出了一种基于无人机的移动边缘计算系统,以最大化计算速率。文献[9]研究了无人机无线网络上行链路功率控制问题。文献[10]分析了具有随机轨迹的自主无人机之间的链路容量。在文献[11]中,作者研究了无人机双用户广播信道的容量范围。然而,现有文献大多如文献[4-11]将无人机用作高空、静态基站或中继站,这些做法没有考虑到无人机的灵活性,而且这些现有的工作只针对地面用户,没有考虑为空中用户提供服务。事实上,这些现有的文献都没有分析使用机器学习工具来利用无人机的移动特性辅助无线通信的潜力。由于无人机轨迹设计的复杂性,有必要引入强化学习算法来优化无人机辅助无线网络的性能。

文献[12-18]研究了强化学习在解决交际问题中的应用,文献[12]将深度Q网络应用于移动通信系统,以减少探测时间,实现最优通信策略。文献[13]提出了一种基于Q-learning的算法来协调功率分配和控制干扰水平,从而在保证蜂窝用户QoS的同时最大限度地提高device-to-device (D2D)用户的总数据率。在文献[14]中,作者提出了一种期望Q-learning算法来解决无许可频谱(LTE- U)下运行LTE网络的频谱分配问题,并通过下行-上行解耦来提高总速率。在文献[15,16]中,作者提出了一种基于回声状态网络(ESN)的学习算法来解决无线网络的频谱分配问题。文献[17]提出了一种增强学习方案来提高云无线接入网络的频谱效率。文献[18]的作者使用人工神经网络为蜂窝连接无人机提供可靠的无线连接。然而,现有的文献[12-18]大多集中在传统Q-learning算法的使用上,而忽略了其缺点,即传统的Q-learning算法会高估实际结果。在基于无人机的无线网络中,过高的估计会导致无人机轨迹的次优设计或资源分配的次优策略,从而降低无线网络的性能。

本文的主要贡献是开发一种新的框架,使无人机能够找到最优飞行轨迹,以最大限度地增加蜂窝网络中满意用户数量。据我们所知,这是第一个考虑到带有数据请求和延迟请求的三维无人机飞行轨迹优化问题的论文。在这方面,我们的主要贡献总结如下:

bull; 我们提出了一种基于无人机的蜂窝网络模型,将无人机部署为飞行和移动的基站,用于下行传输。在该模型中,用户分为地面用户和空中用户。所有用户将向无人机发送他们的数据请求和延迟请求,无人机将设计一个使满意用户数量最大化的最优飞行轨迹。

bull; 我们提出了一个双Q学习框架来优化无人机的飞行轨迹,从而最大限度地满足用户的需求。与传统的Q学习算法[19]相比,该算法使用两个Q表来解耦选择和评估,以防仅在一个Q表中进行选择和评估动作而导致高估。因此,该算法可以收敛到最优轨迹,从而获得最大的满意用户数。

bull; 仿真的结果表明,与随机算法相比,我们所提算法在满意用户数量上可获得19.4%的增益,对比Q-learning算法的增益则为14.1%。

本文的其余部分组织如下:第二节描述了系统模型和问题;第三节提出了基于双Q学习的最优轨迹设计方法;第四节给出了数值模拟结果并进行了分析;最后,第五节得出结论。

2 系统模型和问题公式化

考虑蜂窝网络下行传输,如图1所示,无人机服务于用户。我们在模型中考虑了两种类型的用户:地面用户和空中用户。地面用户是站在地面上的传统蜂窝用户。空中用户表示空中的蜂窝用户,如摄像无人机、传感器无人机、飞行器等。服务运营商向无人机提供所有与用户相关的信息,如用户的数据请求和位置。将每个用户的位置视为一个三维坐标,记为,其中与是水平坐标,为高度。对于地面用户,高度为。对于空中用户,高度通常大于50米。无人机将从指定位置飞行,以固定高度为每个用户服务。在所研究的模型中,无人机在每个时间段只能为一个用户服务,在前一个服务完成后无人机才会飞行为下一个用户服务。

图1 一个无人机基站的蜂窝网络

每个用户发送给无人机的请求包含两个要素:用户请求的数据大小和用户可以等待服务的最大时间(耐力时间)。我们用表示每个用户请求的数据大小且用表示耐力时间。每个用户请求的数据大小取决于服务类型,同时耐力时间包括每个用户等待无人机到达的时间和无人机为用户服务的时间。如果在耐力时间内完成了对给定用户请求的服务,则将结果显示为用户满意,对无人机提供服务满意的用户被称为满意用户。接下来,我们先介绍无人机服务用户的等待延迟和服务时间。然后,我们提出了如何使满意用户数量最大化的问题。

2.1 等待延迟

每个用户的等待延时包括无人机在用户之前服务用户的时间和无人机飞到用户的时间,我们假设无人机的速度为,无人机与用户的距离为。从无人机到用户的飞行时间为每个用户的总等待时间为:

(1)假设无人机开始二章飞到用户的时间为:

(2)

其中将在第二章B小节中进一步定义,表示用户的总服务时间, 表示在用户之前被服务的用户,且表示用户的服务订单,。表示用户在时被服务。,例如表示无人机首先为用户服务。注意,如果先服务用户,则。取决于已经被无人机服务的用户数量。每个用户的总等待时间为:

(3)

由式(3)可知,用户的总等待延误时间既取决于飞行时间,也取决于之前被服务的用户的总服务时间。我们还可以看到,随着服务订单的变化,无人机完成前一项服务的时间和总等待延迟也发生了变化。

2.2传输延迟

接下来,我们介绍无人机与用户之间传输链路的模型。由于地面用户和空中用户的高度差异,信道条件也不同。因此,无人机-地面用户和无人机-空中用户传输链路分别定义如下:

·无人机-地面用户链路:采用无人机概率信道模型对无人机与地面用户之间的传输链路进行建模,在文献[5]中考虑概率视距(LoS)和非视距(NLoS)链路,说明了NLoS的衰减比LoS链路高得多。由于阴影和衍射损耗的影响,无人机向地面用户传输数据时的LoS和NLoS信道增益为:

(4)

其中为无人机传动杆的路径损失指数,是由NLoS连接引起的另一个衰减因子。根据文献[20],LoS链路的概率为:

(5)

其中、为环境参数,为俯仰角,为用户的高度之间的偏差。无人机到地面用户的平均信道增益为:

(6)

其中;地面用户的下行速率为:

(7)

其中 为无人机与地面用户的下行信噪比(SNR),B为下行传输链路的带宽,为无人机的发射功率,是高斯噪声的方差。

·无人机航空用户链路:利用微波传播信道对无人机与地面用户人机与空中用户之间的传输链路进行建模,微波信道可以提供较高的传输速率,使无人机能够快速、及时地完成用户的请求。由于无人机和空中用户的海拔较高,传输链路可视为LoS链路,其路径损耗由文献[6, 21]给出:

(8)

其中为自由空间路径损耗,为空中用户与无人机之间的距离,为毫米波的载波频率,为光速,表示由于LoS连接的附加衰减系数。航空用户的下行速率为:

(9)

其中为无人机与空中用户之间的下行信噪比,因此用户服务的延迟为:

(10)

无人机服务用户的总时间可计算为:

(11)

由式(11)可知,无人机服务于用户的总时间既取决于等待延时,也取决于 传输延时。在式(3)中,等待延迟随着服务顺序的变化而变化,因此无人机服务用户的总时间也随之变化。

2.3 问题公式化

根据已定义的系统模型,我们的目标是设计一个飞行轨迹,使满意的用户数量最大化。接下来,我们首先介绍满意用户的概念。然后,我们提出优化问题。给定用户的请求的数据大小及耐久时间,定义用户满意度指标如下:

(12)

在中,当为真时,;否则,。表示在服务订单下,无人机在耐力时间内完成用户的请求。

在式(12)中引入了满意用户的符号后,下一步是引入无人机飞行轨迹管理机制,使满意用户数量最大化,这个问题可以表述为:

(13a)

(13b)

其中在式(12)中定义,代表用户的服务顺序。式(13)的目的是寻找最优轨迹,以便无人机在接收到所有用户请求后能够在其续航时间内完成用户的大部分请求。由于寻找最优轨迹需要评估服务顺序的所有可能排列,这将占用大量的服务时间,因此有必要引入一种学习算法来缩短轨迹的计算时间。

3 满足用户数最大化的双Q学习算法收益框架

为了解决式(13)中的最大化问题,我们引入了一个基于双Q学习的强化学习框架。与现有的强化学习算法[12-14]如Q学习可能存在次优轨迹导致满意用户数量无法最大化相比,本文提出的双Q学习算法可以让无人机找到最优飞行轨迹服务,从而使用户满意的数量最大化。传统的Q学习算法通常使用一个Q表来记录和更新不同状态和动作产生的值[19],这会产生正反馈导致高估。新提出的双Q学习算法使用两个Q表分别选择和评估动作。因此,本文提出的双Q学习算法避免了对Q值的高估。

接下来,我们先介绍双Q学习算法的组成部分。然后,阐述利用双Q学习算法寻找无人机最优飞行轨迹的过程。

3.1 算法组成

双Q学习模型由四个基本成分组成:1) 代理人:在这个问题中,代理人显然是无人机。无人机可以收集用户的信息,如用户的位置、用户要求的数据大小和续航时间。2) 行动:双Q的行动决定了无人机在下一个时间段服务的用户。设为无人机的一个动作。例如,表示无人机将为用户提供服务。3) 状态无人机的每个状态,,包括:(1) 表示每个用户是否已被无人机服务过,其中,表示用户已被无人机服务,反之;(2) 耐久时间;(3) 等待时间,代表该用户已被服务过;(4) 飞行时间。4) 奖励函数:定义奖励函数为在状态下无人机采取行动时满足的用户总数,可定义为:

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[258835],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。