摘要
针对雷达系统面临的干扰场景复杂多变、人工设计抗干扰策略性能难以保证以及实时性不高的问题,构建了基于深度强化学习的智能决策生成模型,设计了有针对性的动作集、状态集和奖励函数。同时提出了基于双深度Q网络(DDQN)的决策网络训练算法,用于克服深度Q网络(DQN)算法中目标网络与评估网络相耦合导致Q值的过估计。仿真结果表明:与DQN、Q学习、人工制定策略与遍历策略库等方法相比,文中所设计的智能决策模型和训练方法对干扰的抑制效果好,泛化能力更强,反应时间更快,有效地提升了雷达自主决策能力。
-
单位电子信息工程学院; 南京航空航天大学