摘要

针对认知对抗中干扰方难以获取雷达方正确先验知识、面对复杂模型求解最优干扰策略困难的问题,提出了基于双层强化学习的多功能雷达认知干扰决策算法,第1层强化学习验证先验知识是否正确,并决定是否更新先验知识;第2层强化学习基于更新的先验知识进行强化学习,生成Q矩阵指导干扰方进行干扰决策。为了提高双层强化学习算法的干扰决策效率以及干扰决策正确率,对Q-learning算法的动作选择策略和收益函数设置方法进行了改进。仿真实验表明,在错误先验知识的情况下,该算法可以解得正确的最优干扰策略。相比于单层强化学习,该算法提高了干扰方适应复杂电磁环境的能力,使得强化学习在多功能雷达认知干扰决策中更具应用价值。