摘要

基于深度聚类的语声分离方法已被证明能有效地解决混合语声中说话人输出标签排列的问题,然而,现有关于聚类进行说话人分离方法,大多数是优化嵌入使每个源的重建误差最小化。该文以时域卷积网络为基础网络设计了一种改进基于聚类的门控卷积语声分离方法,在时域上通过堆叠的门控卷积网络,实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网络中,提取语声信号的深层次特征;同时在高维特征空间中聚类对语声信号的特征进行表示和划分,为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语声信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出,该方法在信号失真比和尺度不变信号噪声比指标上分别达到了16.72 dB和16.33 dB的效果。