摘要

针对目前海上编队防空任务分配综合效益低,实时性较差等问题,提出了一种基于深度强化学习的海上编队防空任务分配方法。考虑来袭目标威胁度和武器数量等因素,从毁伤效能出发,构建任务分配问题优化模型。在此基础上,将问题转换成马尔可夫决策过程,定义深度强化学习求解所需的状态空间,动作空间与奖励函数。使用了两种结构简单的深度强化学习算法DQNReg和DQNClipped对模型进行优化求解,实现较优的任务分配。仿真结果表明,相比于传统的智能优化算法,基于深度强化学习的海上编队防空任务分配方法能够实现综合效益值更高的任务分配,且求解时间更短,证实了所提方法的有效性。