摘要

针对基于强化学习的干扰决策方法存在着收敛速度过慢的问题,在Dyna-Q算法的基础上提出一种规划步数自适应的Dyna-Q干扰决策算法。在保证干扰策略有效性的前提下,提升强化学习算法的收敛速度,使算法能以更快的速度学习到最优干扰策略。实验与仿真结果表明:该算法能实现多功能雷达干扰的实时有效,也可扩展到其他强化学习应用领域,具有一定借鉴价值。

  • 单位
    中国人民解放军装备学院