摘要
针对基于主题的文本分类任务存在的主题特征表征能力不足、数据高维导致的特征维度高等问题,本文对输入的特征表示与卷积神经网络结构(CNN)做出了改进。在特征表示时提出了使用LDA模型计算逆主题空间频率从而得到文本的主题向量矩阵,降低了噪声主题的特征表达,增强了关键主题的权重;分别将文本的主题向量矩阵与词向量矩阵作为CNN模型的输入。提出了双层CNN网络结构,在每层CNN的池化层后增加一层多通道池化层,以融合每层CNN的池化结果,降低特征维度的同时获取更多的局部显著特征;最后使用Attention机制对融合的特征进行加权后输入到全连接层进行分类。由实验结果可知,改进的模型在文本分类任务上的准确率、召回率均在98%以上,F1值较基准实验提高了近6%。
- 单位