摘要
大规模计算系统组成庞大且逻辑复杂,对系统的维护提出了挑战。在此以建立于山西吕梁的超级计算中心的天河二号中监控和采集到的故障日志数据作为输入量,提出一种基于HDBSCAN聚类和CNN-BiLSTM-Attention故障预测模型的大规模计算系统故障预测的方法,实现对故障节点和故障时间的预测。该方法首先对故障日志数据采用HDBSCAN聚类方法进行了分类,随后利用CNN-BiLSTM-Attention提取故障日志的时序特征。实验证明,该模型不仅具有很高的故障时间预测精度,而且故障发生节点位置预测的精度也不低于92.1%。
- 单位