摘要

情感在同一情境下通常是逐渐变化的,而目前视听情感识别研究大部分集中在融合静态人脸图像特征和语音特征上,忽略了视频图像序列之间的时序关系,也忽略了姿态的作用。因此论文结合卷积神经网络(VGG)和长短期记忆网络(LSTM)构建了一个基于深度神经网络的视听多模态情感识别模型,整合了表情、姿态和语音的特征来进行视听情感识别。首先,使用VGG提取人脸图像和姿态图像的视觉特征,然后使用LSTM提取人脸图像序列和姿态图像序列的时序特征,同时使用opensmile提取音频特征,最后将提取的人脸、姿态和音频特征用DNN网络进行多特征的拼接融合以及情感分类。实验证明,与融合静态人脸图像特征与语音特征进行视听情感识别的方法相比,论文模型取得了更好的识别率,而加上姿态特征后,准确率又提升了6.1%。