摘要

针对现有语音情绪识别方法特征提取完整性和准确率较差的问题,将注意力机制和长短时记忆网络(Long short-term memory, LSTM)相结合,提出了一种语音情绪识别模型。该模型首先采用语音信号的梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为LSTM的输入,借助LSTM对频谱序列进行建模,并在LSTM的遗忘门和输入门中做窥孔连接,将单元状态也作为输入数据加入门限层中;然后将LSTM得到的情感特征输入注意力层,计算每一帧语音信号的权重;最后使用权重较高的语音特征来区分不同情绪,完成对语音信号的情绪识别。结果表明:该模型与基础LSTM模型相比,在EMO-DB、CASIA和RAVDESS三种数据集上准确率分别提高2.96%、2.66%和7.06%,召回率和F1值也均有提高。这表明提出的模型语音分类识别性能较强,有效提升了语音情绪识别的准确率。