摘要

在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic, A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(目标方多功能雷达)以及交互机制的认知干扰决策整体框架,制定了干扰决策流程,干扰机模型利用异步多线程方式与环境模型进行交互训练。仿真实验表明,在扩充雷达任务转换关系表的基础上,所提方法与基于深度Q网络(deep Q network, DQN)的认知干扰决策系列方法相比,极大地提高了时间效率,平均决策时间降低70%以上,并且在决策准确度上有着明显优势,表明所提方法能够为多功能雷达对抗决策提供更有力的技术支撑。

  • 单位
    信息工程大学