摘要
硬盘故障所致的数据丢失和损坏给企业和用户带来重大损失,硬盘故障预测也因此引起了学术界和企业界的高度重视,涌现了不少基于机器学习的故障预测方法,但由于存在机器学习算法模型的样本数据差异、性能指标不一致等原因,无法合理评估预测方法的优劣。鉴于此,建立了基于机器学习的硬盘故障检测评估平台,在统一的实验平台中对随机森林、逻辑回归、多层感知神经网络、决策树、朴素贝叶斯、极端梯度提升树、梯度提升决策树和AdaBoost算法模型进行故障预测性能比较,主要针对相同样本集和同一性能度量进行预测对比研究,还对同一预测模型在不同大小样本集上的预测效果进行了对比。实验结果表明:随机森林模型和梯度提升决策树模型不仅预测精度很高而且对不同规模的样本集具有很强的泛化性。
- 单位