摘要
半监督学习利用少量标签数据和大量的无标签数据进行学习.Tri-training是一种基于分歧的半监督分类算法,在进行伪标记时会因误标记而使训练集产生噪声,从而导致算法分类性能下降.为了减少误标记对算法分类性能的影响,该文提出一种基于自适应剪辑与概率参数的Tri-training算法(ADPT).新算法利用基于最近邻的RemoveOnly数据剪辑技术对触发自适应剪辑策略的标记数据进行噪声识别及剔除,而未触发自适应剪辑策略的标记数据则用概率参数方法对噪声进行识别及剔除.为验证本文算法的分类性能,采用4个评价指标,在9组UCI数据集上进行实验,并与相关算法进行比较.实验结果表明:该算法在准确率、精度、召回率及Fmeasure等评价指标上与其他算法相比,具有明显优势.
- 单位