摘要
为解决实际应用场景中常面临的数据标注不足的问题,提出一种基于变分主题模型的半监督文本分类模型。首先使用无监督变分主题模型挖掘出语义信息集中的文档-主题分布,作为有效的文档特征表示,再通过半监督方式训练分类器。基于神经网络的变分主题模型相较传统的主题模型,不仅可以得到合理的主题,而且推断速度更快。在20NewsGroup等数据集上的实验结果表明,所提出的模型仅使用30%的训练数据就可以取得与使用90%训练数据的半监督基线模型相当甚至更好的结果,证明了所提出模型的正确性和实用性。
-
单位江苏开放大学; 南京理工大学