摘要
在实际应用中,语音分离不仅要根据声音信息分辨不同说话人,还要根据其他维度信息,例如视觉信息来辅助辨别不同说话人,相比于单纯依靠声音来说,通常人在交流过程中会根据说话人的表情、动作等来更加准确地判断说话人的身份。为了将视觉信息融合到语音分离的各个阶段,增强音视频特征相关性的同时更加准确地分离声音源,提出交叉注意力语音分离网络CANet。利用视觉信息辅助语音分离,保证在多目标说话人和视觉缺失条件下的语音分离性能。网络包含编码器、注意力交叉分离网络和解码器3个模块,其中视觉编码器采用改进的MLP采集深度视觉信息,引入残差连接学习不同维度特征,使用注意力机制将视觉特征与语音信息融合。实验表明,交叉注意力时域语音分离网络CANet较纯语音分离网络效果提升了9.5%,较简单融合语音分离模型ResMNet提升了36.1%。
- 单位