摘要

传统的半监督学习算法存在适用范围有限和泛化能力不足的缺陷,尤其是当训练数据集中出现了未见标签的新类样本时,算法的性能将在很大程度上受到影响。基于人工标注的有标记样本获取方式需要领域专家的参与,消耗了高昂的时间和财力成本,且由于专家背景知识的局限,无法避免标记过程中的人为错标现象。为此,以提高对未见标签样本标注正确性为出发点的半监督学习算法具有迫切的实际需要。在对自训练算法进行了详细剖析之后,提出了一种有效的新类探测半监督学习算法。首先,基于经典的极限学习机模型,构造了可处理标签增量和样本增量学习的通用增量极限学习机;然后,对自训练算法进行改进,利用标注可信度高的样本进行样本增量学习,同时设置了缓存池用以存储标注可信度低的样本;之后,使用聚类和分布一致性判定方法进行新类探测,进而实现类增量学习;最后,在仿真数据集和真实数据集上对提出算法的可行性和有效性进行了实验验证,实验结果显示在缺失类别数为3、2、1时,新算法的测试精度普遍比其他6种半监督学习算法高出将近30%、20%、10%左右,从而证实了本文提出的算法能够获得更好的新类探测半监督学习表现。