摘要

针对雷达系统面临的干扰场景复杂多变、人工设计抗干扰策略性能难以保证以及实时性不高的问题,构建了基于深度强化学习的智能决策生成模型,设计了有针对性的动作集、状态集和奖励函数。同时提出了基于双深度Q网络(DDQN)的决策网络训练算法,用于克服深度Q网络(DQN)算法中目标网络与评估网络相耦合导致Q值的过估计。仿真结果表明:与DQN、Q学习、人工制定策略与遍历策略库等方法相比,文中所设计的智能决策模型和训练方法对干扰的抑制效果好,泛化能力更强,反应时间更快,有效地提升了雷达自主决策能力。