摘要

针对传统说话人辨认任务中相位特征容易被人忽视的情况,对说话人辨认任务提出了结合幅度和相位特性的短时傅里叶变换(Short-Time Fourier Transform,STFT)+基于相位的谱根倒谱系数(Phase-based Spectral Root Cepstral Coefficients,PSRCC)特征融合方案,并且将轻量级卷积神经网络模型MobilenetV3与CA注意力机制融合作为后端分类器。通过5种不同特征选择方案进行说话人辨认对比实验,得到相应准确率。结果表明,所提出的说话人识别模型在开源声纹识别数据集VOXCELEB-1的测试集上取得了83.23%的准确率,该模型在超越VGGVOX基线系统81.82%测试准确率的同时,模型大小和参数量分别减少了75.98%和76.32%。