摘要

为解决传统启发式维修排故决策方法决策时间长、生成的策略总成本高的问题,提出一种基于贝叶斯网络结合强化学习进行复杂装备维修排故策略生成的方法。为了更好地利用复杂装备模型知识,使用贝叶斯网络进行维修排故知识表述,并且为了更加贴近复杂装备实际情况,依据故障模式、影响和危害性分析的故障概率,经合理转化后作为贝叶斯网络的先验概率;为了使用强化学习的决策过程生成维修排故策略,提出一种维修排故决策问题转化为强化学习问题的方法;为了更好地求解转化得到的强化学习问题,引入了观测-修复动作对以减小问题规模,并设置动作掩码处理动态动作空间。仿真验证结果表明:在统一的性能指标下,所提方法较传统方法获得更高的指标值,证明了方法的有效性和优越性。

全文