摘要

针对传统文本特征表示方法无法充分解决一词多义问题,构建一种融合字注释的文本分类模型。首先,借助现有中文字典,获取文本由字上下文选取的字典注释,对其基于Transformer的双向编码器(BERT)编码生成注释句向量;然后,将注释句向量与字嵌入向量融合作为输入层,丰富输入文本的特征信息;最后,通过双向门控循环单元(BiGRU)学习文本的特征信息,引入注意力机制突出关键特征向量。在公开数据集THUCNews和新浪微博情感分类数据集上进行文本分类的实验结果表明,融合BERT字注释的文本分类模型比未引入字注释的文本分类模型性能上有显著提高,BERT字注释_BiGRU_Attention模型进行文本分类有更高的精确率和召回率,反映整体性能的F1-Score分别高达98.16%和96.52%。