摘要

针对连续性工业生产特点,重点关注类别不平衡造成的不合格样本召回率低问题。首先,为了从高维数据提取有效特征,结合one class F-score及mRMR在特征提取方面的优势,有效降低特征维度并提取有价值特征;然后,利用Wasserstein GAN (WGAN)方法扩增不合格样本数量;接着通过类别权重优化Focal Loss函数以期提高困难样本识别率;进一步,通过LightGBM算法结合阈值移动策略,构建基于WGAN数据增强和难例挖掘技术的质量预测模型(WGAN_Focal Loss_LGB(TM));最后,将本文提出的模型应用于开源SECOM数据集中,得到AUC为0.615,Recall为0.931,G-mean为0.528。结果表明本文所提出的方法在保证整体准确率的前提下,有效提升不合格样本召回率,为深入揭示生产关键因素与产品质量之间的复杂映射关系以及智能质量预测工作提供一种科学、实用的方法。