摘要

潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验。为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(Proximal Policy Optimization, PPO)算法改进机制,开展互博弈对抗和分布式训练,最终实现潜艇在对抗过程中的智能决策,相关技术路线和算法在兵棋对战平台上得到实施和验证,算法改进后的收敛速度和稳定性有了较大提升,可为潜艇智能指挥决策的研究提供技术参考。

  • 单位
    江苏自动化研究所