摘要

针对Unet频域歌声分离网络模型对语音时序信息的捕获困难以及底层特征利用率不高的问题,设计了一种相比于基线Unet网络参数量更小且歌声分离效果更好的卷积神经网络。首先设计了一种残差分组扩张卷积结合压缩激励模块,并将其引入到编码和解码阶段,该模块在参数量减少和增大网络感受野的同时自适应学习不同通道的重要特征,不但增强了有用特征,而且还抑制了无用特征。其次在传输层将线性门控单元采用密集相加连接来增强网络在特征传递过程中对时序特征的获取,并且使用扩张卷积来代替普通卷积以扩大网络的感受野。最后使用注意力门控机制来代替基线Unet中的跳跃连接以加强网络对底层特征的利用。在Ccmixter和MUSDB18数据集中进行实验,与基线网络相比,歌声分离的性能指标都有提升,并且其参数量大约只有基线网络的1/5。