摘要

针对高动态强对抗战场环境下,无人战车面临的自主行为决策问题,分析了未来陆战场无人战车实际作战需求,构建了基于马尔可夫决策过程的自主行为决策模型,提出了一种深度强化学习结合行为树的方法,利用行为树的逻辑规则与先验知识降低强化学习问题的难度,保证收敛性和鲁棒性,同时使行为决策模型具有学习能力。构建典型作战场景,验证深度强化学习结合行为树的无人战车自主行为决策方法的有效性。

  • 单位
    北方自动控制技术研究所