摘要

说话人语音聚类可广泛应用于大规模无标注语音数据的预处理任务中。针对短时语音段的特征提取能力弱以及聚类算法聚类不稳定的问题,基于可变卷积核注意力时延网络(SKA-TDNN)提出一种带有多尺度注意力的网络结构。在不增加网络体积的基础上,进一步提升频域和通道信息的捕获能力和网络的全局感受野。同时,根据说话人语音数据分布特性,提出一种基于峰值统计的k-means聚类算法,有效解决原始算法中随机初始化聚类中心带来的聚类准确率低和收敛速度慢的问题。实验结果表明,在Aishell4中文会议数据集中,提出的改进SKA-TDNN特征提取网络和改进k-means聚类算法,在聚类准确率和算法收敛速度上得到了有效的提升。

  • 单位
    中国刑事警察学院; 中国政法大学