摘要
针对固定系数比例导引律在拦截高机动目标时脱靶量与能量损耗过大的问题,提出一种基于深度强化学习智能调参的自适应比例导引律。首先,建立基于实时飞行状态的状态空间、包含横向和纵向导航比的动作空间,以及综合不同状态的奖励函数模型。同时,在奖励函数的模型设计中,引入预测-校正方法以提高动作评估的准确性。其次,利用柔性演员-评论(Soft Actor-Critic, SAC)算法,根据拦截器和目标的相对运动状态,训练获得综合考虑脱靶量和能量损耗的网络参数与制导参数决策系统。仿真结果表明,相较于传统比例导引律,该制导策略可以在保证低脱靶量的同时显著降低能量损耗,并且对未训练场景具有良好的适应性。
-
单位空间科学与技术学院; 西安电子科技大学; 中国航天科技集团有限公司