基于注意力机制的LSTM语音情感主要特征选择

胡婷婷; 冯亚琴; 沈凌洁; 王蔚<sup>*</sup>

doi:10.16300/j.cnki.1000-3630.2019.04.010

摘要

传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(Long Short Term Memory, LSTM),根据注意力权重进行特征选择,在两个数据集上进行了实验。结果发现:(1)基于注意力机制的LSTM相比于单独的LSTM模型,识别率提高了5.4%,可见此算法有效提高了模型的识别效果;(2)注意力机制是一种有效的特征选择方法。采用注意力机制选择出了具有实际物理意义的声学特征子集,此特征集相比于原有公用特征集在降低了维数的情况下,提高了识别准确率;(3)根据选择结果对声学特征进行分析,发现有声片段长度特征、无声片段长度特征、梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)、F0基频等特征与情感识别具有较大相关性。

单位
教育科学学院; 南京师范大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-10 01:47

基于注意力机制的LSTM语音情感主要特征选择

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友