摘要
随着系统规模、芯片功耗和链路速率的提升,高性能互连网络的整体故障率也不断上升,传统运维方式将难以为继,给高性能计算系统整体可靠性和可用性带来了巨大挑战。针对网络端口阻塞这类严重网络故障,提出无监督算法的预测模型。该模型从历史信息中挖掘征兆性规律并形成新的特征向量,应用K-means聚类算法对特征向量进行学习归类。在预测时,结合端口当前状态,利用二次指数平滑算法对未来状态进行预测,将得到的新特征向量使用K-means算法预判是否会发生阻塞故障。利用拓扑结构信息,分别对叶交换机和根交换机构建预测子模型,进而提升预测的精确率。结果表明,该预测模型能保持在召回率为88.2%的前提下,达到65.2%的准确率,可为运维人员提供有效的辅助。
- 单位