摘要
为进一步提升基于时频掩蔽值的波束形成的性能,提出集成基于神经网络的复值时频掩蔽值估计和基于空域聚类的实值时频掩蔽值估计的波束形成方法,旨在提高声源存在概率估计的准确性。该方法首先提取输入信号的时频特征和空域特征,将时频特征输入到神经网络得到复值时频掩蔽值。利用复值时频掩蔽值中信号的幅度和相位信息,提升存在概率估计的准确性。随后,将神经网络估计的声源存在概率作为空域聚类方法的初始时频掩蔽值,通过期望最大化算法迭代估计时频掩蔽值,从而缓解神经网络方法因数据不匹配带来的性能衰减问题。实验表明,所提集成方法相比基线系统的相对词错误率取得了7.6个百分点的性能提升。
-
单位信息工程大学