摘要

说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。