摘要

多标签文本分类(multi-label text classification, MLTC)旨在从预定义的候选标签中选择一个或多个文本相关的类别,是自然语言处理(natural language processing, NLP)的一项基本任务。前人工作大多基于规范且全面的标注数据集,而这些规范数据集需要严格的质量控制,一般很难获取。在真实的标注过程中,难免会缺失标注一些相关标签,进而导致不完全标注问题。该文提出了一种基于部分标注的自训练多标签文本分类(partial labeling self-training for multi-label text classification, PST)框架,该框架利用教师模型自动地给大规模无标注数据分配标签,同时给不完全标注数据补充缺失标签,最后再利用这些数据反向更新教师模型。在合成数据集和真实数据集上的实验表明, PST框架兼容现有的各类多标签文本分类模型,并且可以缓解不完全标注数据对模型的影响。

全文