摘要

本文针对数据中正负样本极度不平衡、不同指标数据的形态差异较大的问题,提出了不平衡数据集下基于时序和高阶特征的硬盘故障预测模型。从多个维度构建具备丰富表征能力的特征,包括在指标和指标之间做特征交叉,构建高阶特征;在时间维度上,构建多尺度的时序特征。针对正负样本不平衡问题,引入Focalloss和欠采样策略以提高正样本、难样本的权重。采用两阶段训练的策略,以避免因模型参数过多导致的过拟合问题。在公开的真实数据集上验证了模型的有效性。