摘要
针对噪声环境下语音情感识别系统性能下降的问题,提出一种基于MD-CGAN的情感语音去噪算法。通过MD-CGAN学习带噪谱图到干净谱图的映射关系,对带噪语音进行去噪处理,对情感特征有更好的恢复效果。首先,生成器网络采用维度保持结构,避免了反卷积带来的棋盘化效应和情感信息损失;然后,在生成器网络中加入残差结构,减少了异常语音数据的影响;最后,在损失函数中加入矩阵距离损失,并探究矩阵距离损失权重的设定,得到适用于情感特征恢复的最佳权重。实验结果表明,相比于传统的语音去噪算法,提出的语音去噪算法对语音情感的识别率提升了6.69%,相对于在不去噪环境下提升了52.83%。
- 单位