摘要

针对汽车零部件质检数据存在的合格与不合格产品数量不平衡问题,提出了基于密度聚类与多工序制造特征的MCDC-MF-SMOTE质检数据过采样方法。首先对少数类(不合格)与多数类(合格)样本分别进行密度聚类,然后利用多工序制造数据和类簇样本分布进行过采样权重计算;根据设定的过采样比和类簇权重,在少数类簇中进行数据生成,并使用多数类簇剔除无效数据。该方法相比Regular-SMOTE等其他过采样方法,AUCPRC指标提升了5%~49%。针对汽车零部件小样本抽检质量预测问题,提出了基于Stacking集成的LXSMS质量预测方法,使用MCDC-MF-SMOTE方法生成平衡数据集,使用随机森林进行特征重要性排序来降低特征维度,将LightGBM、XGBoost、SVM和MNB模型进行Stacking集成,用于预测轮胎均匀性抽样检测中选出不合格品。相比随机抽检,该方法对不合格产品检出率提高了约63%。