摘要
说话人验证是一种自然、有效的生物特征身份认证方法,其性能很大程度上取决于所提取说话人特征的质量。残差网络(ResNet)具有优越的推理能力,可以提取高质量的说话人特征,因此广泛地应用于说话人验证任务中,然而目前残差网络仍存在音频数据信息利用不充分,提取的特征不利于分类说话人等问题,这些问题大大限制了残差网络的表征能力。本文聚焦于残差网络的模型结构,详细分析了残差块分布比例、激活层、跳跃连接这些结构因素对特征信息提取的影响,以及模型输出特征分布对说话人分类结果的影响,并据此对原始残差块、特征下采样过程以及模型输出头重新设计并构建了一个新的说话人验证模型:EIPFD-ResNet。该模型采用更少激活层的残差块和单独设计的下采样层共同作用来减少音频信号的损失和噪声信息的引入,采用归一化处理后的模型输出头帮助分类损失提供更清晰的分类决策面,并在3个公开数据集(VoxCeleb1、VoxCeleb2、Cn-Celeb2)上评估了所提模型的有效性。实验结果证明,本文提出的模型在仅有7.486M参数量的情况下,相较于传统ResNet34模型,在3个数据集上的等错误率(EER)分别降低了16.4%、33.3%、6.0%,且与强说话人验证模型ECAPA-TDNN相比在VoxCeleb2和CN-Celeb2上 EER分别降低了10%和9.0%。
- 单位