摘要

为了提高基于深度学习的语音频带扩展性能,提出一种结合幅值掩膜的时频神经网络模型.该模型既能利用语音的相位信息,又能通过幅值掩膜来优化预测语音的幅值.模型时域部分设计一种融合注意力机制的长短时记忆神经网络,该网络可以实现并行计算,当预测高频语音时充分利用距离相近的前后语音帧之间的关系,舍弃对远距离语音帧之间关系的学习,从而减少模型的计算量.主客观实验表明该方法在信噪比和可懂度等度量上优于传统方法和基于深度神经网络的语音频带扩展方法.

全文