摘要

神经波束形成器(Neural Beamformer)的构建是处理多通道语音增强任务的主要方法之一,其通过求解波束权值来对多通道信号进行滤波从而获得纯净语音。与传统波束求解空间协方差矩阵的原理类似,频谱信息和空间线索在神经波束形成器的波束权值估计中也起着至关重要的作用。然而,由于缺乏对频谱和空间信息的充分学习,现有的许多工作都无法对波束权值进行最优估计。为了处理这一大挑战,本文首先构建了一种基于傅里叶卷积的上下文特征提取器,其在频率轴上具有全局感受野,并在其中加入时频卷积模块对时间上下文信息建模,增强对输入频谱图上下文信息的学习。此外,本文还采用了一种新的卷积循环网络(Convolutional Recurrent Network, CRN)结构,其编解码模块中嵌入了所提的上下文特征提取器,并在跳连接中嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM)。所提出的CRN结构能充分从输入特征频谱图中捕获时频上下文信息以及跨通道的空间信息。实验结果表明,该方法参数量仅1.14M,并与目前先进的基线系统对比达到最优性能。