摘要
为了快速恢复大规模受灾用户的应急通信服务,针对接入用户数量众多导致的业务差异性和动态性显著、集中式算法难以扩展等问题,提出了一种基于多智能体强化学习的分布式智简覆盖优化架构。在网络特征层中,设计了考虑用户业务差异性的分布式k-sums分簇算法,每个无人机基站从用户需求出发,原生简约地调整局部网络结构,并筛选簇中心用户特征作为多智能体强化学习神经网络的输入状态。在轨迹调控层中,设计了多智能体最大熵强化学习(MASAC)算法,无人机基站作为智能节点以“分布式训练-分布式执行”的框架调控自身飞行轨迹,并融合集成学习和课程学习技术提升了训练稳定性和收敛速度。仿真结果表明,所提分布式k-sums分簇算法在平均负载效率和分簇均衡性方面优于k-means算法,基于MASAC的无人机基站轨迹调控算法能够有效减小通信中断的发生频率、提升网络的频谱效率,效果优于现有的强化学习方法。
- 单位