摘要
短文本语义稀疏模糊、蕴含信息不足,表达不规则等缺陷给短文本分类任务带来了极大的挑战;且现有短文本分类方法忽略词项间的交互信息,不能充分挖掘隐含的语义信息,导致分类效率低下。针对上述问题,提出了一种基于多粒度图与注意力机制的半监督短文本分类模型MgGAt。该模型在词粒度和文本粒度基础上构建两种类型的图,充分挖掘语义信息实现分类任务。首先,构建词级图,捕获词嵌入,进而学习得到文本特征表示。具体地,在词级图上引入跳内注意力和跳间注意力,从多种语义角度有效提取词项间隐含的高阶信息,捕获语义丰富的词嵌入。同时,依据词级子图的特点设计池化策略,聚合词嵌入,学习文本表征。然后,构建文本级图,借助部分已知的标签信息,利用图神经网络的优势,在图上执行标签传播和推理,实现半监督短文本分类任务。最后,在四个公测数据集上的实验结果表明,与基线模型相比,MgGAt模型的短文本分类准确率平均提升了1.18个百分点,F1值平均提升了1.37个百分点,具有更好的分类性能。
- 单位