摘要
针对情感分析主要集中于单模态文本数据,忽略多模态数据融合问题,通过结合屏蔽多模态注意力方式,提出跨模态融合ERNIE的情感分析模型(CM-ERNIE)。首先,使用CNN和BiGRU提取音频数据特征以及词向量提取文本序列特征;其次,通过屏蔽多模态注意力作为CM-ERNIE的核心单元动态调整文本和音频数据权重,最后,文本和音频模态的交互作用微调预训练ERNIE模型。该模型在多模态电影评论观点数据集CMU-MOSEI和CMU-MOSI上评估。实验表明,模型在多模态数据集CMU-MOSEI和CMU-MOSI上评估该模型比单模态情感分析模型准确度高,并且多模态情感分析的研究蕴含巨大的价值,可为多模态场景下的情感分析、舆情分析和意图识别等实际应用问题提供决策支持。
- 单位