摘要
为了更精确地从语谱图中提取特征信息,提出了一种基于A-DResUnet的语音增强方法。A-DResUnet模型在ResUnet模型的基础上融合了空洞卷积,提升捕获语音上下文信息的能力;同时在编码器中加入卷积注意力模块(CBAM),提高对噪声谱图特征的关注。实验结果表明,与模型输出目标为干净语音语谱图相比,用噪声谱图作为模型输出目标时,该模型对未知噪声具有更强的分离能力;相较ResUnet模型,提出的A-DResUnet模型减少了语音细节信息的损失;对比基于DNN、GAN的语音增强方法,PESQ平均提升了22.81%、33.11%,STOI平均提升了9.62%、15.33%,为复杂环境下的语音增强提供了一种更有效的方法。
- 单位