摘要

围绕基于深度神经网络的说话人无关单通道录音分离模型,首先根据说话人的i-vector模型距离将说话人聚类,并证明不同类之间具有明显的可分性。然后基于聚类结果,本文训练了基于DNN的说话人组合检测器,通过该检测器网络的输出信号的能量特征不同,可以判断当前混合录音的说话人组合类别。选择相应的DNN录音分离器将混合录音进行分离。最后通过本文的分离系统与经典的CASA分离系统在PESQ和STOI指标上的实验对比,证明了本文的基于DNN的说话人无关单通道录音分离系统有着明显优势。