摘要
近年来,随着神经网络的应用,语音增强效果显著提升。但对关联性较强的长序列语音数据,单一的网络结构受到自身性能的限制可能无法继续提升增强效果。为了进一步提升神经网络对语音增强的效果,本文将一种被称为双路径循环神经网络(dual-path recurrent neural network, DPRNN)的复合网络结构应用在语音增强任务中。该复合网络结构由卷积神经网络(convolution neural network, CNN)和长短时记忆神经网络(Long short-term memory, LSTM)组成,网络的核心是两个LSTM组成的双路径循环神经网络块(DPRNN Block)。DPRNN将长序列语音数据分割为重叠帧数据块,利用DPRNN Block对这些数据块执行块内计算和块间计算,以此实现数据的局部和全局建模。实验结果表明,相比于单一网络结构,DPRNN在已知噪声和未知噪声条件下均取得最好结果。
- 单位