摘要

目前大多数的文本分类方法不能有效地反映句子中不同词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。提出一种GRU-ATT-Capsule混合模型,使用门控循环单元(GRU)提取上下文特征并结合注意力机制(Attention)学习文本中单词的重要性,将两种不同词向量提取出的特征进行融合,使用胶囊网络(Capsule Net)来克服卷积神经网络(CNN)会丢失空间信息的缺点,学习文本局部与全局之间的关系特征。在搜狗新闻数据集上进行实验,通过与TextCNN、BiGRU-ATT进行比较,证明了该模型和方法能有效地提升文本分类准确度。

全文