摘要
传统的多标签文本分类算法往往只关注文本本身的信息,在挖掘标签间的关联信息过程中存在不足,很大程度上影响了模型的分类性能。为了充分利用标签信息捕获标签之间的依赖关系,提出一种融合注意力与CorNet的多标签文本分类算法。该算法针对文本内容编码部分,使用双向长短时记忆网络获得文本语义表示,通过多标签注意力机制捕获文本中的重要单词;同时,针对标签编码部分,利用图注意力网络捕获标签间的依赖关系,设计“文本-标签”注意力机制将其与文本上下文语义信息进行交互,获得基于标签语义信息的文本特征表示;最后,使用自适应融合机制将上述两部分融合,并通过CorNet模块学习标签相关性以增强标签预测。在AAPD、RCV1-V2和Reuters-21578数据集上的实验结果表明,所提出的算法能够有效捕获标签之间的依赖关系,其性能优于当前主流的多标签文本分类算法。
- 单位