摘要
本发明公开了一种基于行为克隆的干扰策略感知方法,包括:从雷达的角度,得到干扰机的干扰策略;根据不同时刻雷达的状态信息和动作、干扰机的干扰策略得到在线样本集;将在线样本集中的在线样本输入至干扰策略网络,以对干扰策略网络进行训练,得到训练好的干扰策略网络;基于未知的真实干扰策略对应的奖励的期望值和训练好的干扰策略网络输出的干扰策略对应的奖励的期望值得到用于训练抗干扰策略网络的干扰策略;基于PPO算法,利用干扰策略训练抗干扰策略网络,以得到训练好的抗干扰策略网络输出的抗干扰策略;利用抗干扰策略在线对抗真实干扰策略。本发明避免了在线对抗过程中的试错学习。
- 单位