摘要

由于短文本自身具有词汇个数少且格式不规范的特点,造成神经网络输入矩阵存在特征稀疏、维度过高以及语义特征提取不充分等问题。为解决上述问题,提出一种基于双向长短时记忆神经网络的短文本分类算法(WTL-BiLSTM),该算法融合Word2vec、TF-IDF和LDA主题模型实现文本向量化,在获取短文本词义特征的同时,加入词汇重要程度特征和文本主题特征。并利用BiLSTM从前、后两个方向全面捕捉短文本语义特征,有效避免了RNN模型梯度爆炸和梯度消失问题。经实验验证,该算法能够有效解决短文本分类过程中出现的问题,相比于传统的短文本分类算法,分类准确率得到一定程度的提升。

  • 单位
    河北经贸大学