基于深度学习的自然与表演语音情感识别

作者:王蔚*; 胡婷婷; 冯亚琴
来源:南京大学学报(自然科学), 2019, 55(04): 660-666.
DOI:10.13232/j.cnki.jnju.2019.04.016

摘要

语音是情感表达的重要途径,自然状态和表演状态下的语音所蕴含的情感信息并不完全相同.为了探索自然状态和表演状态下语音情感识别的差异,采用深度学习算法分析了IEMOCAP公用数据集,对自然状态和表演状态下的中性、愤怒、开心和悲伤等四类情绪语音数据进行实验:首先提取语音数据的声学特征(对比了emobase2010特征集和eGeMAPs特征集),然后利用卷积神经网络(Convolutional Neural Networks,CNN)对自然与表演状态下的语音情感进行识别,比较了两种状态下的情感识别率,再利用混淆矩阵分析两种状态下不同情绪之间的误分率和相似性.实验结果显示,自然状态下的情感识别率明显高于表演状态下,还发现愤怒和悲伤在两种状态下的误分率有明显区别.该现象对理解情绪的表达机制有启发意义.

全文