摘要
复杂多变的战场环境要求后装保障能够根据战场环境变化,预见性地做出决策,为此提出了基于强化学习的动态调度方法。为了准确描述保障调度问题,提出了支持抢占调度、重分配及重部署决策的马尔可夫决策过程模型,模型中综合考量了任务排队、保障优先级以及油料约束等诸多问题的影响;随后设计了改进策略迭代算法,训练基于神经网络的保障调度模型;训练后的神经网络模型能够近似计算状态价值函数,从而求解出产生最大期望价值的优化调度策略。最后设计了一个分布式战场保障仿真实验,通过与常规调度策略的对比,验证了动态调度算法具有良好的自适应性和自主学习能力,能够根据历史数据和当前态势预判后续变化,并重新规划和配置保障资源的调度方案。
- 单位