摘要

针对一对一无人机(unmanned aerial vehicle, UAV)空战格斗问题,提出了一种基于竞争与双重深度强化学习的机动对抗方法.建立UAV的状态转移机制和态势奖励模型,将空战态势分为4种基本类型,根据贝叶斯推理计算4种态势的概率,动态地选择不同的权重.在竞争深度Q网络(dueling-DQN)算法和双重深度Q学习网络(double-DQN)算法的基础上结合两者的优点,将网络的输出分为价值函数和优势函数两部分,并通过“双重网络”解耦动作的选择与价值的评估,提出dueling-double-DQN(DDDQN)算法,作为UAV的决策核心,提高了算法的收敛性,改善了Q值被过高估计的问题.仿真结果表明所提出的决策方法的有效性.