摘要
偏标记学习是一类重要的弱监督学习框架,在该框架下,每个训练样本与一组候选标记相关联,在候选标记集合中有且仅有一个是其真实标记。很明显,候选标记数目越多,偏标记学习难度越大。为了减少候选标记数目以降低偏标记学习难度,提出了一种基于三元纠错输出码的偏标记学习算法(PL-TECOC),该算法将偏标记学习问题转换为多个二类学习问题,并对学到的多个二类分类器进行最终集成。在构建二类训练数据时采用编码"0"来忽略相应标记,仅依据非"0"编码标记进行正负类的构造,以达到减少候选标记数目的目的。实验表明,与多个流行的偏标记学习算法相比,PL-TECOC在人工数据集和真实数据集上均取得了较好的分类性能。
- 单位