摘要

针对自训练迭代过程中错误标记样本对算法性能的影响,提出了基于密度峰值和切边权值的自训练算法。用密度聚类方法发现数据集的空间结构,选出具有代表性的未标记样本进行标签预测。用切边权值作为统计量进行假设检验,判断样本是否被正确标记,进而用正确标记样本逐步扩充有标记样本集合,直至所有未标记样本标签预测完成。新算法既充分利用了样本数据的空间结构信息,又解决了部分样本被标记错误的问题,提高了算法的分类准确率。通过在真实数据集上实验验证了新算法的有效性。