摘要

为增强人机交互的和谐,提升语音情感识别的精度,提出一种面向小数据集的CGRU深度学习方法。该方法将原始音频通过上移和下移操作进行语音增强,将增强后的语音信号映射到Mel尺度并生成Mel功率谱图,然后对其做旋转、切角、偏移等图像增强操作,并结合卷积神经网络(CNN)对频域特征的捕捉能力和门控循环单元(GRU)网络对时序信息的特性获取能力构成融合模型CGRU,该模型通过自动学习深度谱特征进行情感识别。实验分别验证了利用谱图特征与手工特征在Emo-DB上的识别效果,并比较了CLSTM与CGRU的时间性能。结果表明,利用谱图特征在CGRU方法上的情感识别精度达到98.39%,超过传统手工特征eGeMAPS在该数据库上的识别效果,提出的方法在语音情感识别任务上获得有竞争力的表现。另外,在相同的训练参数下,CGRU要比CLSTM具有更加良好的时间性能。