摘要
针对经典后置滤波器存在的对非平稳噪声抑制效果较差且存在目标语音失真的问题,提出一种基于交叉注意力机制的后置滤波网络,使用基于门控循环单元的编解码器作为网络框架,并在编解码器组之间添加残差连接;使用基于伽马通域的波束输出信号与噪声参考信号功率谱的子带增益作为双特征输入;使用特征交叉的多头归一化点积注意力捕获序列输入的长距离依赖信息并进行特征融合。实验结果表明,该算法在不同信扰比和噪声条件下的语音质量和可懂度指标均优于基线系统,具有较强的鲁棒性;在对非平稳噪声具有较好抑制效果的同时,能最小化目标语音的失真;且相较端到端的深度学习方法,具有轻量化和低时延的特点,能满足实际工程应用的需求。
- 单位