摘要

针对拒止环境中多导弹系统易受到恶意干扰而导致弹间链路可用性和传输时效性降低的问题,提出了一种基于多智能体深度确定策略(Multi-agent Deep Deterministic Policy Gradient,MADDPG)的多弹协同抗干扰算法。以多导弹系统的功耗和数据传输时延为约束,建立去中心化部分可观测马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP),所有节点共享一个全局的收益函数。算法采取集中式训练、分布式执行框架,在训练过程中每一个智能体的Critic网络都会收集所有智能体的状态和动作信息;在执行阶段,只由每个智能体的Actor网络根据局部信息做出决策。仿真结果表明,相较于中继转发优先策略和直接转发优先策略,所提算法使导弹智能体能够根据部分可观测状态信息自适应地进行功率分配决策,从而有效提升分布式多导弹系统的协同抗干扰性能。

全文