两级U-Net波束形成网络的3D语音增强算法

林文模; 陈飞龙; 孙成立; 朱祯君

doi:10.3778/j.issn.1002-8331.2207-0352

摘要

3D混响环境中的噪声对很多下游应用不利，开发适用于现实相近场景的3D语音增强技术，在实际生活中具有重要的理论意义和实用价值。针对此场景提出了一种用于3D语音增强的两级波束形成网络。该网络由两个连续的多输入单输出U-Net波束形成网络组成。第一级网络主要对来自双麦克风的3D语音信号进行波束形成粗估计，滤除部分信号噪声。为进一步改进估计，第二级网络则将粗估计信号的特征连同原始信号内全向信道信息特征作为输入，进行波束形成细估计，以得到更精确的估计信号，达到两级增强的目的。数据集和实验基于L3DAS22挑战赛的3D语音增强任务。该方法在盲测试集上获得的短时客观可懂度（short-time objective intelligibility,STOI）为0.925，字错误率（word error rate,WER）达到13.6%，明显优于L3DAS21 3D语音增强挑战赛中的冠军模型（0.878和21.2%）。

单位
南昌航空大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-11-28 21:28

两级U-Net波束形成网络的3D语音增强算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友