摘要
频域语音增强算法通常存在相位失配问题,而相位信息对于语音增强任务非常重要。时域语音增强算法可以有效解决相位失配问题,但是噪声和语音在频域中更易分离。为了实现时域和频域语音增强算法的优势互补,提出一种基于双阶段Conv-Transformer的时频域语音增强算法。采用编解码结构,将带噪语音经过短时傅里叶变换得到的频域特征和一维卷积处理后得到的时域特征作为输入。考虑到Transformer擅长提取语音序列的全局依赖关系,卷积神经网络可以关注局部特征,为了更好地提取时域和频域中的局部信息和全局信息,设计一种Conv-Transformer模块。在此基础上,联合时域和频域损失函数对模型进行优化,使得模型可以同时学习语音在时域和频域中的分布规律。实验结果表明,与单一域的语音增强算法相比,该算法具有更好的降噪效果,增强后的语音感知质量、短时可懂度、信号失真测度、噪声失真测度、综合质量测度分别为3.04、0.953、4.34、3.55、3.69。
- 单位