摘要
针对当前多标签文本分类模型在标签语义信息利用过程中存在文本特征提取不充分、文本特征信息丢失的问题,提出了一种改进标签语义信息嵌入的多标签文本分类模型(label embedding multi label text classification,LEMLTC)。首先利用BERT将待分类文本和标签嵌入成向量,接着将标签向量和文本向量做点乘,然后通过一个注意力层生成文本的注意力向量,从而对文本向量加权,最后通过全连接网络实现多标签文本分类。在AAPD和Reuters-21578数据集上进行实验,F1值分别提高了3.92%和0.3%,证明了该模型在多标签文本分类任务的有效性。
- 单位