多尺度卷积的时频域语音分离方法研究

作者:贾林锋; 吴黎明*; 温腾腾; 廖禹韬; 高梓皓
来源:电子测量与仪器学报, 2022, 36(11): 134-140.
DOI:10.13382/j.jemi.B2205628

摘要

在进行混合语音分离时,信号时域特征的深度学习语音分离性能优于频域特征。但目前时域特征的语音分离方法在真实噪声环境下的鲁棒性较差,且单一时域特征对分离模型的性能存在局限性。因此,提出一种基于Conv-TasNet网络的多特征语音分离方法,融合频域特征与时域特征,提高数据的多维信息。为了进一步提高分离网络性能,引入多尺度卷积块,提高网络对特征的提取能力。在包含真实噪声的实验环境下,所提方法与Conv-TasNet模型和最新的时频域融合语音分离基线模型相比,性能分别提高了0.91和0.52 dB,有效提升了语音分离的性能及鲁棒性。

全文