摘要

【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型,分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的;采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为79.84%;相较于基于单一文本、图片模态的情感分类算法,本模型准确率分别提升了4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融合方法,本模型准确率提升了1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创新/局限】利用Modal Embedding和Self-Attention机制能够有效的融合多模态信息。微博网络舆情数据集还需进一步扩充。

全文