摘要
本发明公开了一种基于生成对抗模仿学习的干扰策略感知方法,包括:基于回合制马尔可夫决策过程,根据雷达和干扰机的交互得到在线样本集;将在线样本集中的在线样本输入干扰策略网络,并先更新判别器网络的参数,基于判别器网络输出的奖励更新生成器网络的参数,获取达到预设要求的生成器网络和判别器网络,以得到训练好的干扰策略网络;根据策略评估误差得到用于训练抗干扰策略网络的干扰策略;基于步骤3得到的干扰策略训练抗干扰策略网络,得到训练好的抗干扰策略网络;利用训练好的抗干扰策略网络输出的抗干扰策略在线对抗真实干扰策略。本发明的方法相较于监督学习方法能够缓解感知过程中的复合误差问题。
- 单位