摘要
在动态干扰环境下的多节点无线传感器网络中,随着状态-动作空间的增大,传统强化学习难以收敛.为克服这一问题,本文提出一种基于迁移强化学习的快速抗干扰算法,即将多智能体Q学习和值函数迁移方法相结合.首先,将多节点通信抗干扰问题建模为马尔科夫博弈;然后,引入互模拟关系度量不同状态-动作对之间的相似性;最后,采用多智能体Q学习算法学习抗干扰策略,并在每一步Q值更新后,根据不同状态-动作对之间的相似性进行值函数迁移.仿真结果表明,在分时隙传输的在线抗干扰问题中,所提算法的抗干扰性能显著优于正交跳频法和随机跳频法,在达到相同抗干扰效果时,所需的迭代次数远少于常规Q学习算法.
-
单位国防科技大学; 中国人民解放军陆军工程大学