摘要

当前多模态语音情感识别(speech emotion recognition,SER)数据集规模较小、蕴含信息量较大,导致模型对各模态信息的拟合度不足,且无法挖掘出数据背后蕴含的信息。针对该问题,提出了基于对比学习的多模态语音情感分类网络,一方面在网络中引用跳连接(skip connections, SC)方法,有效的解决了网络退化问题;另一方面借助对比学习(contrastive learning, CL)理论提出一种新的Loss计算方法,加快模型的拟合速度。模型在IEMOCAP数据集上进行实验,未加权精度(UA)为82.68%,加权精度(WA)为82.35%。根据实验结果,表明了本模型的优越性。