基于主辅网络特征融合的语音情感识别

作者:胡德生; 张雪英*; 张静; 李宝芸
来源:太原理工大学学报, 2021, 52(05): 769-774.
DOI:10.16355/j.cnki.issn1007-9432tyut.2021.05.011

摘要

为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。

全文