基于注意力机制与LSTM的语音情绪识别

陈巧红; 于泽源; 孙麒; 贾宇波

摘要

针对现有语音情绪识别方法特征提取完整性和准确率较差的问题,将注意力机制和长短时记忆网络(Long short-term memory, LSTM)相结合,提出了一种语音情绪识别模型。该模型首先采用语音信号的梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为LSTM的输入,借助LSTM对频谱序列进行建模,并在LSTM的遗忘门和输入门中做窥孔连接,将单元状态也作为输入数据加入门限层中;然后将LSTM得到的情感特征输入注意力层,计算每一帧语音信号的权重;最后使用权重较高的语音特征来区分不同情绪,完成对语音信号的情绪识别。结果表明:该模型与基础LSTM模型相比,在EMO-DB、CASIA和RAVDESS三种数据集上准确率分别提高2.96%、2.66%和7.06%,召回率和F1值也均有提高。这表明提出的模型语音分类识别性能较强,有效提升了语音情绪识别的准确率。

单位
浙江理工大学

收藏分享被引(22) 浏览

更新时间：2024-04-12 12:09

基于注意力机制与LSTM的语音情绪识别

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友