CCM-MF:基于多维度特征融合的中文文本分类模型

作者:马子晨; 张顺香*; 刘云朵; 王星光; 张友强
来源:广西科学, 2023, 30(01): 35-42.
DOI:10.13656/j.cnki.gxkx.20230308.004

摘要

针对中文文本中不同维度特征所携带的语义信息具有差异性的问题,本文提出一种基于多维度特征融合的中文文本分类模型:CCM-MF (Chinese-text Classification Model Based on FusedMulti-dimensional Features)。该模型融合层次维度和空间维度特征,以提高中文文本分类的准确率。首先,在层次维度上,使用预训练模型ERNIE (Enhanced Representation through Knowledge Integration)获取包含字、词及实体级别特征的词向量;然后,在空间维度上,将包含层次维度特征的词向量分别输入到改进后的深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks, DPCNN)模型及附加注意力机制的双向长短期记忆网络(Attention-Based Bidirectional Long Short-Term Memory Networks, Att-BLSTM)模型中,得到局部语义特征和全局语义特征;最后,将得到的空间维度特征分别作用于Softmax分类器,再对计算结果进行融合并输出分类结果。通过在多个公开数据集上进行实验,较现有主流的文本分类方法,本模型在准确率上有更好的表现,证明了该模型的有效性。