摘要

为了融合多模态信息、解决全局-局部特征建模问题并提高多模态会话情绪识别准确率,提出了结合多级注意力和多流图神经网络的多模态会话情绪识别模型(multimodal conversation emotion recognition combining multi-level attention and multi-Stream graph neural networks,MCER-MAMGNN)。设计多级注意力机制提取语境化融合特征,用于增强各模态的表示能力,有效捕捉多模态信息之间的相关性和互补性,并减少噪声干扰;设计多流图神经网络以处理不同模态的信息,通过构建话语的异质性情绪依赖关系来捕捉局部特征,并使用双向Mogrifier LSTM网络捕捉全局特征(语境特征),以此更全面和深入地理解会话中的情绪;设计多流合并分类模块融合各模态流输出,通过自注意力机制进一步提取语境化融合情绪特征。实验结果表明,该模型在IEMOCAP和MOSEI数据集上取得了较好的性能。