摘要
语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。本文基于语音节奏特征的差异性,提出了能量帧时频融合的语音情感识别方法。其关键是,针对语音当中高能量区域进行频谱筛选,以高能语音帧的分布和时频变化来体现个体的语音节奏差异。在此基础上建立基于卷积神经网络CNN和循环神经网络RNN的情感识别模型实现对频谱的时域和频域变化特征提取与融合。在公开数据集IEMOCAP上,实验表明该基于语音节奏差异的语音情感识别对比基于语谱图的方法,在加权准确率WA和非加权准确率UA指标上平均提升1.05%和1.9%;同时也表明个体的语音节奏差异对提升语音情感识别效果具有重要作用。
- 单位