摘要

针对典型海空协同作战中指挥控制技术对时效性、准确性和跨域融合能力的高要求,提出了一种先验知识启发的双层强化学习框架.通过研究先验知识启发的奖励塑造方式,提取作战子任务设计状态聚合方法,从而把具体状态映射到抽象状态;基于抽象状态使用马尔科夫决策过程(Markov decision process, MDP)理论进行建模,使用强化学习算法求解该模型;使用最终求解出的抽象状态价值函数进行基于势能的奖励塑造.以上流程与下层具体MDP过程并行求解,从而搭建了一个双层强化学习算法框架.基于全国兵棋推演大赛的兵棋推演平台进行了实验,在状态空间、动作空间、奖励函数等方面细化算法.指出了先验知识代表从上而下的任务式指挥方式,而多智能体强化学习在某些结构上符合自下而上的事件式指挥方式.两种方式结合,使得该算法控制下的作战单元学习到协同作战战术,面对复杂环境具有更好的鲁棒性.经过仿真实验,该算法控制的红方智能体对抗规则智能体控制的蓝方可以获得70%的胜率.