摘要
社交平台上文本和图像相结合的多模态谣言比纯文本谣言更易于误导用户,因此研究多模态的谣言检测方法具有重要意义。现有方法大多只是对各个模态特征直接进行向量拼接,忽略了模态间联系,不能充分利用多模态信息。为了解决上述问题,提出了一种基于双预训练Transformer和交叉注意力机制的多模态谣言检测模型:首先使用预训练的Transformer(BERT和ViT)分别提取文本单词和图像的特征,克服了训练样本小的局限性;然后使用交叉注意力机制将文本和视觉特征进行特征融合,充分地学习到两种模态间的潜在联系;最后将得到的多模态融合特征输入谣言检测模块进行分类。实验结果表明,该模型在Twitter和微博数据集上的检测性能均高于多模态基准模型,有效性和泛化性进一步提升。
- 单位