摘要
提出了一种基于多任务卷积神经网络(convolutional neural network, CNN)的多模态情感识别模型,在视觉和听觉模态数据中分别提取语音特征和人脸图像特征,从而提高不同情感的泛化能力和识别精度.以eNTERFACE视听情感数据集为例,对所提多任务CNN的多模态情感识别模型的有效性进行验证.结果表明,所提模型较ResNet、VGG19和集成学习模型平均准确率分别提升10.14%、9.09%和4.89%.
-
单位上海工艺美术职业学院