摘要

针对有标记的训练样本数量较少会降低印刷套准识别模型性能的问题,本研究提出了基于安全样本过采样预处理和协同训练的半监督方法,以提升识别模型的性能。首先采用k近邻方法识别训练集中的安全样本。在安全样本间进行过采样,生成新的训练集。然后采用Bootstrap采样方法将新的训练集分成三个子训练集,学习得到三个决策树子分类模型,不断对无标记样本进行预测,并将其加入到子训练集,更新子分类模型,直至其能稳定为止。集成子分类模型,形成最终分类模型。实验结果表明,本研究方法随着训练样本数量的增多,分类性能也逐渐提高。当训练样本数量为800时,其在测试集上的分类准确率Accuracy达到98%,召回率的几何平均数G-mean为99%,在同样数量的训练样本上,均高于实验中的其他方法。本研究方法可以有效利用无标记样本,提高印刷套准识别模型的性能,实现数量较少的训练集样本的印刷套准识别。

全文