摘要

现有语音增强方法在时域端到端语音增强中无法学习全面时间尺度特征信息且中间层序列建模不充分。提出从全面时间尺度进行语音降噪的方法。通过线性插值方式对输入特征序列进行扩充,获得比原输入数据具有更高分辨率的时间特征,使得模型能够从更细时间尺度上进行特征提取,并利用间隔抽样方法对每一层编码后的特征进行下采样,在较粗时间尺度上计算越来越多的高维特征,使网络模型能够捕获深层次的有用信息。同时,在网络模型中引入ConformerBlock作为中间层,其中,多头注意力机制和卷积模块能够增强中间层网络的序列建模能力,突出中间向量的表征信息,根据语音和噪声线性叠加的原理,采用联合噪声训练生成对抗网络的方法使网络从目标语音和噪声2个角度获取有用信息,进一步提升模型降噪能力。在公开语音增强测试数据集上的实验结果表明,该方法降噪后语音的各项指标均得到显著提升,相比Wave-U-net模型,在PESQ、STOI和SSNR这3项主要指标上分别提升了2.75%、1.06%、6.34%。

  • 单位
    武汉邮电科学研究院

全文