摘要
为了提高语音情感识别的准确率,提出了一种基于长短期记忆(LSTM)和卷积神经网络(CNN)的语音情感识别方法。首先提取语音信号的梅尔(Mel)频谱序列作为LSTM网络的输入,利用LSTM网络提取语音信号的时域上下文特征,在此基础上再利用CNN从低层特征中学习提取更高层次的情感特征,并完成对语音信号的情感分类。在eNTRAFACE’05、RML和AFEW6. 0三种不同的情感数据库上进行了情感识别测试,实验结果表明,文中提出的方法在上述三种数据库上获得的平均识别率分别为49. 15%,85. 38%和37. 90%。此外,和传统的语音情感识别方法以及基于LSTM或CNN的语音情感识别方法进行了对比,验证了文中提出方法的有效性。
-
单位通信与信息工程学院; 南京邮电大学