基于融合LDA与双层CNN的文本分类研究

作者:杨雳; 刘胜全*; 贾李睿智; 解**
来源:电子测量技术, 2023, 46(07): 1-6.
DOI:10.19651/j.cnki.emt.2211199

摘要

针对基于主题的文本分类任务存在的主题特征表征能力不足、数据高维导致的特征维度高等问题,本文对输入的特征表示与卷积神经网络结构(CNN)做出了改进。在特征表示时提出了使用LDA模型计算逆主题空间频率从而得到文本的主题向量矩阵,降低了噪声主题的特征表达,增强了关键主题的权重;分别将文本的主题向量矩阵与词向量矩阵作为CNN模型的输入。提出了双层CNN网络结构,在每层CNN的池化层后增加一层多通道池化层,以融合每层CNN的池化结果,降低特征维度的同时获取更多的局部显著特征;最后使用Attention机制对融合的特征进行加权后输入到全连接层进行分类。由实验结果可知,改进的模型在文本分类任务上的准确率、召回率均在98%以上,F1值较基准实验提高了近6%。

全文