摘要
文本表示和分类是自然语言理解领域的研究热点。目前已有很多文本分类方法,包括卷积网络、递归网络、自注意力机制以及它们的结合。但是,复杂的网络并不能从根本上提高文本分类的性能,好的文本表示才是文本分类的关键。为了获得好的文本表示,提高文本分类性能,构建了基于LSTM的表示学习-文本分类模型,其中表示学习模型利用语言模型为文本分类模型提供初始化的文本表示和网络参数。文中主要采用对抗训练方法训练语言模型,即在词向量上添加扰动构造对抗样本,再利用对抗样本和原始样本一起训练模型,通过提升模型对对抗样本的正确分类能力,提高文本表示的质量,增强模型的泛化性能,从而改善分类模型的分类效果。实验结果表明,基于对抗训练的文本分类方法在基准数据集AGNews,IMDB,DBpedia上分别实现了92.9%,93.2%,98.9%的准确率,证明了该方法能够有效提高文本分类模型的分类性能。
-
单位北京交通大学海滨学院; 北京交通大学