摘要
为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,提出加权线性拟合方法;对于任务场景稀疏奖励问题,提出基于逆值法的稀疏奖励强化学习方法。根据规避任务决策过程建立了空间多智能体对抗仿真系统,利用其验证了所提算法的正确性和有效性。
-
单位哈尔滨工业大学; 航天学院