摘要
针对多智能体集群控制中智能体的行为难解释和训练难收敛的问题,研究了强化学习分层框架下的多智能体集群控制方法,提出了一种新的上层宏观决策、下层微观执行的多智能体强化学习分层框架,并利用双重深度Q网络(DDQN)与Q值混合器(QMIX)算法实现了该框架。最后,构建了歼击机8v8空战博弈对抗的场景,用于多智能体强化学习算法的训练。试验结果表明,该框架算法与传统多智能体强化学习方法相比,弥补了多智能体在行为解释性上的缺陷,并在训练收敛速度上得到了一定提升。
-
单位自动化学院; 东南大学