摘要

基于状态获取的故障信息,对可能导致作业运行失败的原因事件进行分类和严重等级分级,进而通过问题规模及其关联关系,提出了一种针对批量大规模并行作业运行故障的快速分析定位方法.该定位方法由上而下、逐层排查故障原因,缩小故障的处理范围,有效解决了大规模作业运行过程中故障定位难且准确性差的问题,为运行管理人员排查故障提供帮助.

全文