摘要

针对多模态情感分析中模态间优化不平衡和多模态特征融合不充分的问题,提出一种融合动态梯度机制和多视图协同注意力机制的多模态情感分析模型,能够有效挖掘单模态特征并充分融合多模态信息。首先,模型使用预训练模型BERT和堆叠式长短期记忆神经网络(Stacked Long Short-Term Memory,SLSTM)学习文本、音频和视频的特征,并提出动态梯度机制,通过监测各模态对学习目标的贡献差异和学习速度辅助各模态的特征学习。其次,将得到的不同模态的特征使用多视图协同注意力机制进行特征融合,通过将每两个模态投影到多个空间执行交互获得更加充分的融合特征。最后,拼接融合特征和单模态特征进行情感预测。在CMU-MOSI和CMU-MOSEI数据集的实验结果表明,该模型能够充分学习单模态和不同模态之间的信息,有效提升多模态情感分析的准确率。