摘要

对海量的用户文本评论数据进行准确分类具有重要的经济效益和社会效益。目前大部分文本分类方法是将文本编码直接使用于各式的分类器之前,而忽略了标签文本中蕴含的提示信息。针对以上问题,提出一种新的基于RoBERTa的文本和标签信息融合分类模型(TLIFC-RoBERTa)。首先,利用RoBERTa(Robustly optimized BERT pretraining Approach)预训练模型获得词向量;然后,利用孪生网络结构分别训练文本和标签向量,通过交互注意力将标签信息映射到文本上,达到将标签信息融入模型的效果;最后,设置自适应融合层将文本表示与标签表示紧密融合进行分类。在今日头条和THUCNews数据集上的实验结果表明,相较于RA-Labelatt、LEMC-RoBERTa等主流深度学习模型,TLIFC-RoBERTa的精度(Accuarcy)取得了最优,对于用户评论数据集能起到最优的分类效果。