摘要

【目的】综合运用不同预训练模型的词向量进行文本语义增强,解决基于Word2Vec、BERT等模型所表示的词向量存在先验知识缺失的问题,提升在新闻数据集上的分类效果。【方法】以今日头条新闻公开数据集和THUCNews新闻数据集为实验对象,使用BERT、ERNIE模型通过领域预训练,分别提取上下文语义信息和实体、短语的先验知识信息;结合TextCNN模型生成高阶文本特征向量并进行特征融合,实现语义增强,进而提升短文本分类效果。【结果】相较于传统的Word2Vec词向量表示,使用预训练词向量表示的分类算法模型准确率分别提升了6.37个百分点和3.50个百分点;相较于BERT和ERNIE词向量表示,融合BERTERNIE词向量表示的分类算法模型准确率分别提升1.98个百分点和1.51个百分点。【局限】领域预训练采用的新闻领域语料有待进一步丰富。【结论】所提方法能够对海量的短文本数据实现快速而准确的分类,对后续文本挖掘工作具有重要意义。