摘要

深度学习可以有效地解决带噪语音信号与干净语音信号之间复杂的映射问题,改善单通道语音增强的质量,但是增强语音的质量依然不理想。Transformer在语音信号处理领域中已得到了广泛应用,由于集成了多头注意力机制,可以更好地关注语音的长时相关性,该模型可以进一步改善语音增强效果。基于此,回顾了基于深度学习的语音增强模型,归纳了Transformer模型及其内部结构,从不同实现结构出发对基于Transformer的语音增强模型分类,详细分析了几种实例模型。并在常用数据集上对比了Transformer单通道语音增强的性能,分析了它们的优缺点。对相关研究工作的不足进行了总结,并对未来发展进行展望。

  • 单位
    中国人民解放军陆军工程大学