摘要

Tri-training是一种基于分歧的半监督学习算法,同时利用了半监督学习和集成学习机制。Tri-training能有效地利用少量有标记样本和大量无标记样本,通过分类器间的相互协同和迭代来提升模型性能。但是在已标记样本量不足的情况下,Tri-training生成的初始分类器训练不足,并且在分类器间协同标记的过程中可能产生误标记的噪声数据。针对上述问题,提出了一种结合DECORATE集成学习、多样性度量与置信度评估的协同学习算法。该算法基于DECORATE集成学习方法,通过添加差异化的人工样本和标记来训练多种偏好的基分类器,以提升分类泛化能力。该算法还基于JS散度对分类器进行多样性度量和筛选,以最大化基分类器多样性,同时在迭代过程中基于标签传播算法对伪标记样本进行置信度评估,以减少噪声数据。在UCI数据集上进行了分类实验,结果表明,相比Tri-training算法及其改进算法,所提算法具有更高的分类准确率和F1分数。