摘要
针对无人机空战环境信息复杂,对抗性强所导致的敌机机动策略难以预测,以及作战成功率不高的问题,设计一种引导Minimax-DDQN(Minimax-DoubleDeepQ-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计DDQN算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。相较于Minimax-DQN、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。实验结果表明,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。
-
单位沈阳航空航天大学; 自动化学院