摘要

3D混响环境中的噪声对很多下游应用不利,开发适用于现实相近场景的3D语音增强技术,在实际生活中具有重要的理论意义和实用价值。该文针对此场景提出了一种用于3D语音增强的两级波束形成网络。该网络由两个连续的多输入单输出U-Net波束形成网络组成。第一级网络主要对来自双麦克风的3D语音信号进行波束形成粗估计,滤除部分信号噪声。为进一步改进估计,第二级网络则将粗估计信号的特征连同原始信号内全向信道信息特征作为输入,进行波束形成细估计,以得到更精确的估计信号,达到两级增强的目的。数据集和实验基于L3DAS22挑战赛的3D语音增强任务。该文方法在盲测试集上获得的短时客观可懂度(Short-Time Objective Intelligibility,STOI)为0.925,字错误率(Word Error Rate, WER)达到13.6%,明显优于L3DAS21 3D语音增强挑战赛中的冠军模型(0.878和21.2%)。