摘要

针对虚假信息检测中图片特征提取不充分,以及忽视了单模内关系以及单模与多模之间交互作用的问题,提出一种基于文本和图片信息的多模态深度融合(MMDF)模型。首先,用双向门控循环单元(Bi-GRU)提取文本的丰富语义特征,用多分支卷积-循环神经网络(CNN-RNN)提取图片的多层次特征;然后,建立模间和模内的注意力机制以捕获语言和视觉领域之间的高层交互,并得到多模态的联合表征;最后,将各模态原表征与融合后的多模态联合表征依据注意力权重进行再融合,以加强原信息的作用。该模型与多模态变分自动编码器(MVAE)模型相比,在中国计算机学会(CCF)竞赛和微博数据集上的准确率分别提升了1.9个百分点和2.4个百分点。实验结果表明,所提模型能够充分融合多模态信息,有效提高虚假信息检测的准确率。