不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型

作者:李新鹏; 高欣*; 何杨; 阎博; 孙汉旭; 李军良; 徐建航; 刘震宇; 庞博
来源:微电子学与计算机, 2020, 37(03): 14-19.
DOI:10.19304/j.cnki.issn1000-7180.2020.03.004

摘要

针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解决随机欠采样方法易丢弃潜在有用样本的问题;其次,将每次采样后样本与全部故障磁盘样本组合得到多个样本子集,通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后,根据待测点邻域样本类别自适应确定各子模型权重,据此通过加权硬投票集成最终的磁盘故障预测模型.在8组KEEL不平衡数据集上实验结果表明,与现有典型不平衡学习算法相比,少数类的召回率平均提升了9.46%;同时在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上的先进性.

  • 单位
    国家电网有限公司; 国网冀北电力有限公司; 国网电力科学研究院; 自动化学院; 北京邮电大学; 国网冀北电力有限公司承德供电公司