摘要

考虑无人机群体行为决策与状态变化的内在驱动,从信息处理角度提出基于决策知识学习的多无人机航迹协同规划方法.首先,基于马尔科夫决策过程对无人机的行为状态进行知识表示,形成关于连续动作空间的决策知识;然后,提出基于知识决策学习的深度确定性策略梯度算法,实现无人机在决策知识层次上的协同规划.实验结果表明:在研发设计演示系统的基础上,所提方法通过强化学习能够得到一个最优航迹规划策略,同时使航迹综合评价和平均奖励收敛稳定,为无人机任务执行提供了决策支持.