摘要
针对突发事件新闻与普通新闻文本中关键词的差异性,以及现有基于深度学习新闻文本的单一性,研究词语间相互关系或词语与类别间相互关系,提出基于双输入组合深度学习的新闻文本分类模型。首先,基于词向量表征词语间关系,离散度向量表征词语与类别间关系;其次,考虑CNN (convolutional neural networks)模型学习局部空间特征信息的优势、LSTM (long short-term memory)模型学习时间序列特征信息的优势和MLP (multilayer perceptron)模型学习词语与类别间关系的优势,构建DCLSTM-MLP (deep convolution long short-term memory neural network with multilayer perceptron)深度学习组合模型;最后,爬取5477条具有词语间相互关系和词语与类别间相互关系的突发事件新闻文本,以及2815条普通新闻,通过实验对比分析组合模型性能。研究结果表明:第一级突发事件识别模型准确率、召回率和综合值均达到99.55%;第二级突发事件分类组合模型准确率达到94.82%,且准确率和召回率的综合值比MLP、Text-CNN、Text-LSTM、CNN-MLP和CLSTM (convolutional long short-term memory neural network)等5种模型分别提高了6.06%、2.36%、2.47%、1.14%和1.79%,该组合模型能够更为精确地实现新闻文本分类任务。
- 单位