摘要
科技资源文本层次多标签分类(Hierarchical Multi-Label Text Classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中。提出基于注意力机制的科技资源文本层次多标签分类算法(Academic Resource Text Hierarchical Multi-label Classification based on Attention,AHMCA)。通过整合文本、关键词、层次结构等特征构造注意力机制层,对HMCN-F~([1])(Hierarchical Multi-Label Classification Networks - Feed-forward)网络进行改进,将科技资源文档逐级分类到最相关的类别中。细节上,主要利用word2vec与BiLSTM来获得文本、关键词、层次结构的嵌入向量和隐向量表示;利用层次注意力机制捕获关键词、标签层次结构与文本词向量之间的关联关系来强化重点词向量的权重,从而生成特定于层级的文档嵌入向量,替代HMCN-F中原始的文本嵌入,实验结果验证了AHMCA方法的有效性。
-
单位北京邮电大学; 经济管理学院