摘要

可靠性研究是高性能计算领域的经典问题,随着制程技术与集成工艺的不断发展,当前全系统规模呈指数级快速增长,给可靠性研究尤其是故障分析带来巨大挑战。收集了自主高性能计算系统投产后工作故障日志信息203 510 247条,时间自2016年1月28日至2016年12月6日。首先使用K-Means聚类方法对故障进行分类,并分析故障分布特征。接着基于聚类结果设计基于时序的故障分析模型FD-LSTM,使用结构化日志训练后,预测不同故障类型的发生时间和空间,结果表明所提出的FD-LSTM预测模型准确率可达80.56%。本文研究表明,基于日志信息的时序模型FD-LSTM在时间预测和空间预测方面,较之前传统的故障分析模型,在提高故障分析准确度、加强机器运维高效性,乃至增进全系统协同设计合理化等方面都具有现实的指导意义。