摘要

文本分类是自然语言处理中的一项基础任务,目的是将文本数据分配到预先定义的类别中。图卷积神经网络(GCN)与大规模的预训练模型BERT(Bidirectional Encoder Representation from Transformer)相结合在文本分类任务中取得了良好的效果。GCN在大规模异构图中无向的信息传递产生信息噪声影响模型的判断,造成模型分类能力下降,针对这一问题,生成式标签对抗模型(CAGCN)模型能降低分类时无关信息的干扰,提升模型的分类性能。首先,采用TextGCN中的构图法构建邻接矩阵,与GCN和BERT模型相结合作为类生成器;其次,在模型训练时采用伪标签特征训练法,并构建聚类器与类生成器联合训练。最后,在多个广泛使用的数据集中进行了实验,实验结果表明在泛用的分类数据集20NG、R8、R52、Ohsumed、MR上,CAGCN模型的分类准确率比BertGCN模型分别提高了1.2、0.1、0.5、1.7、0.5个百分点。