一种面向2V2近距空战的强化学习算法

作者:唐文泉; 孙莹; 杨奇; 李辉*; 王壮; 何立
来源:战术导弹技术, 2022, (01): 120-130.
DOI:10.16358/j.issn.1009-1300.20210081

摘要

针对深度强化学习算法在多对多近距空战决策过程中存在难以处理高维状态空间、难收敛等问题,提出一种基于注意力机制的近端策略优化算法。在经典的近端策略优化算法基础上引入注意力的思想,通过构造基于空战威胁度的注意力模型,对多机作战的空战态势信息进行注意力分配与信息聚合,使算法不用直接处理高维状态空间。2V2近距空战仿真实验结果表明,在初始状态为优势和劣势的情形下,基于注意力机制的近端策略优化算法训练的模型能够驱动智能体做出针对对手策略的正确机动,从而获得优势态势。该算法在收敛速度与稳定性上均优于传统的近端策略优化算法,通过引入注意力机制可以提高算法性能和空战决策效率。

全文