摘要
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法,并在VoxSRC 2022比赛中排名第四。提出的方法由以下几个模块组成,包括语音活动检测(VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳的系统相对基线提升了72%,并在VoxSRC 2022评估集上分别实现了5.48%的说话人日志错误率(DER)和32.1%的杰卡德错误率(JER)。
- 单位