摘要

人机对话中的情感识别对提升人机交互效率具有重要意义.当前,人机对话系统中的情感识别主要由特征提取和回归两步完成.但是,通常这两个步骤是相互独立的,目标并不一致,难以判断提取的特征是否为合适的情感特征.再者,在特征融合方面,传统方法仅将不同模态特征简单拼接,忽略了不同模态对分类结果影响的大小.针对以上问题,本文提出了一种端到端的对话情感识别模型E2E-CER,该模型将情感识别过程整合在一个统一的系统中.此外,还引入了基于注意力机制的多模态融合方法,提高了对上下文语境的学习能力,改善了动态特征融合效果.最后基于公共数据集IEMOCAP进行情了感分类识别实验,实验结果显示,同对话情感识别基线相比,所提模型表现明显高于平均水平,表明其在情感识别上的有效性.