摘要

针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷积,以获取不同层次的图像特征,并使用BERT词嵌入与双向门控循环网络(Gated recurrent unit, GRU)网络获取文本情感特征;然后将提取后的多层图像特征与文本特征进行注意力融合,得到多组单层文本-图像注意力融合特征,并将其通过注意力网络分配权重;最后将得到的多层文本-图像注意力融合特征输入全连接层,得到分类结果。在公开的MVSA和Memotion-7k数据集上进行实验,结果显示:与图文情感分析基线模型相比,基于多层跨模态注意力融合的图文情感分析模型的准确率和F1值在MVSA数据集上分别提升2.61%和3.56%,在Memotion-7k数据集上分别提升3.25%和3.63%。这表明该模型能够有效提高图文情感分类性能。