摘要
硬盘是云数据中心最主要的存储设备,硬盘故障预测是保障数据安全的重要手段。但是,硬盘的故障与健康样本之间存在着极端的数量不平衡问题,这会导致模型偏差;此外,不同型号的硬盘数据分布存在一定的差异,在特定硬盘数据上训练的模型往往不适用于其他硬盘。对于这两个问题,文中提出一种融合AP 聚类算法和宽度学习系统的分布外硬盘故障预测方法。针对样本不平衡问题,文中使用AP聚类算法对硬盘故障出现前一阶段的样本集进行聚类,将和故障样本处于同一聚类簇的样本扩充为故障样本。针对不同型号硬盘分布存在差异问题,文中结合流形正则化框架和宽度学习系统来学习硬盘数据的低维结构,提高模型对未知分布数据的泛化能力。实验结果表明,在AP聚类算法重采样的样本集上,相较于对比重采样方法的样本集,多种方法的F1_Score取得了平均0.2的提升。此外,在分布外硬盘故障预测任务上,文中模型的F1_Score相较于对比方法提升了0.1~0.2。
-
单位华南理工大学; 鹏城实验室