摘要
使用深度学习技术进行语音分离已经取得了优异的成果。当前主流的语音分离模型主要基于注意力模块或卷积神经网络,它们通过许多中间状态传递信息,难以对较长的语音序列建模导致分离性能不佳。首先提出了一种端到端的双路径语音分离网络(DPCFNet),该网络通过引入改进的密集连接块,使编码器能提取到丰富的语音特征。然后使用卷积增强Transformer(Conformer)作为分离层的主要组成部分,使语音序列中的元素可以直接交互,不再通过中间状态传递信息。最后将Conformer与双路径结构相结合使得该模型能够有效地进行长语音序列建模。实验结果表明,相比于当前主流的Conv-Tasnet算法及DPTNet算法,所提出的模型在信噪失真比(Signal to noise Distortion Ratio,SDR)和尺度不变信噪失真比(Scale-Invariant Signal to noise Distortion Ratio,SI-SDR)上有明显提高,分离性能更好。
- 单位