基于CNN和Transformer的双路径语音分离

王钧谕; 高勇<sup>*</sup>

摘要

使用深度学习技术进行语音分离已经取得了优异的成果。当前主流的语音分离模型主要基于注意力模块或卷积神经网络，它们通过许多中间状态传递信息，难以对较长的语音序列建模导致分离性能不佳。首先提出了一种端到端的双路径语音分离网络（DPCFNet），该网络通过引入改进的密集连接块，使编码器能提取到丰富的语音特征。然后使用卷积增强Transformer(Conformer)作为分离层的主要组成部分，使语音序列中的元素可以直接交互，不再通过中间状态传递信息。最后将Conformer与双路径结构相结合使得该模型能够有效地进行长语音序列建模。实验结果表明，相比于当前主流的Conv-Tasnet算法及DPTNet算法，所提出的模型在信噪失真比（Signal to noise Distortion Ratio,SDR）和尺度不变信噪失真比（Scale-Invariant Signal to noise Distortion Ratio,SI-SDR）上有明显提高，分离性能更好。

单位
四川大学

收藏分享被引浏览

更新时间：2024-03-15 16:17

基于CNN和Transformer的双路径语音分离

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友