稀疏奖励下多航天器规避决策自学习仿真

作者:赵毓; 郭继峰*; 颜鹏; 白成超
来源:系统仿真学报, 2021, 33(08): 1766-1774.
DOI:10.16182/j.issn1004731x.joss.21-0432

摘要

为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,提出加权线性拟合方法;对于任务场景稀疏奖励问题,提出基于逆值法的稀疏奖励强化学习方法。根据规避任务决策过程建立了空间多智能体对抗仿真系统,利用其验证了所提算法的正确性和有效性。

全文