摘要

针对多模态情感分析中如何有效挖掘单模态表征信息,并实现多模态信息充分融合的问题,提出一种基于混合特征与跨模态预测融合的情感识别模型。首先,利用Mel频率倒谱系数(MFCC)和Gama频率倒谱系数(GFCC)以及其一阶动态特征融合得到混合特征参数提取算法(D-MGFCC),解决了语音情感特征丢失的问题。然后,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征。其次,加入对比学习的跨模态注意力机制模型(CSA-Transformer)对相关性高的文本特征和语音模态情感特征进行跨模态信息融合。最后,将含有文本-语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以达到信息补充的作用。实验结果表明,本文提出的模型在公开IEMOCAP(Interactive Emotional Dyadic Motion Capture)、CMU-MOSI(CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLFT)模型相比,准确率分别提高了2.83个百分点、2.64个百分点、3.05个百分点。验证了本模型在情感识别的有效性。