基于自身注意力时空特征的语音情感识别算法

徐华南; 周晓彦<sup>*</sup>; 姜万; 李大鹏

doi:10.16300/j.cnki.1000-3630.2021.06.011

摘要

针对语音情感识别中无法对关键的时空依赖关系进行建模,导致识别率低的问题,提出一种基于自身注意力(self-attention)时空特征的语音情感识别算法,利用双线性卷积神经网络、长短期记忆网络和多组注意力(multi-head attention)机制去自动学习语音信号的最佳时空表征。首先提取语音信号的对数梅尔(log-Mel)特征、一阶差分和二阶差分特征合成3Dlog-Mel特征集作为卷积神经网络的输入;然后综合考虑空间特征和时间依赖性关系,将双线性池化和双向长短期记忆网络的输出融合得到空间-时间特征表征,利用多组注意力机制捕获判别性强的特征;最后利用softmax函数进行分类。在IEMOCAP和EMO-DB数据库上进行实验,结果表明两种数据库的识别率分别为63.12%和87.09%,证明了此方法的有效性。

单位
南京信息工程大学

全文

访问全文

收藏分享被引(4) 浏览

更新时间：2024-04-17 10:42

基于自身注意力时空特征的语音情感识别算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友