摘要
采用深度强化学习算法解决了多智能体编队协同控制问题。基于多智能体深度确定性策略梯度算法(MADDPG)构建分布式编队控制架构,并结合集中式训练-分布式执行框架进行求解。针对多智能体环境不稳定问题,依据单个智能体的局部信息构建对应奖励函数。针对大规模编队协同控制,实现了多个多智能体环境下的算法训练与评估。试验结果表明,应用该算法的多智能体能够完成协同任务,且所有智能体都可得到合理的协同控制策略。
-
单位北京控制与电子技术研究所