摘要

本发明属于自然语言处理领域,涉及一种未标注文本的半监督分类方法。该方法首先使用预训练语言模型计算输入文本的文本向量;然后提取类向量和未标注文本对应的增广类向量;接着使用类向量对正、负例文本进行预测并计算标注文本预测误差,同时使用增广类向量计算未标注文本的伪标签并计算未标注文本的预测误差;接着使用预测误差对网络参数进行更新完成神经网络模型训练;最后以正例文本和未标注文本作为已训练好的神经网络模型的输入,输出未标注文本的类别。本发明不需要人工对大量未标注文本进行标注,相对于传统监督学习文本分类算法,本发明能在仅有少量标注文本的情况下,较准确地区分未标注文本的类别。