摘要

在数据分析中,有标签数据难以获取且代价高昂、无标记数据往往大量易获得,而半监督学习在这种受限情况下可以大幅降低模型训练成本。笔者提出一种基于密度峰值的随机森林自训练算法,通过对单棵决策树进行自训练改进,利用密度峰值聚类算法获取样本潜在空间结构,在有标签样本中搜索邻近的样本,选择高置信度的无标签样本加入训练集,然后迭代优化分类器。该方法既保留了随机森林的泛化能力,又有效利用了无标签样本中的潜在信息。在多个UCI数据集中的实验结果表明,该算法能够提升半监督分类性能。