摘要
欺骗语音是声纹识别系统的重大威胁。针对传统声纹系统可能无法识别欺骗语音的问题,提出了一种多特征多模型融合的反欺骗语音系统。在特征提取步骤上,使用了基于三角滤波器组的3种特征:梅尔倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)、逆梅尔倒谱系数(Inverse Mel Frequency Cepstral Coefficients, IMFCC)和线性倒谱系数(Linear-Frequency Cepstral Coefficients, LFCC);在分类器设计步骤上,使用了高斯混合模型(Gaussian Mixture Models, GMM)和残差网络模型(Residual Network, ResNet)。将不同模型的打分结果进行融合,使不同特征、不同模型的效果互补。在ASVspoof2019的数据集上的验证结果表明,设计的反欺骗语音系统可以有效地检测欺骗语音,相比ASVspoof2019比赛的基线系统,等错误率(Equal Error Rate, EER)与串联成本检测函数(tandem Detection Cost Function, t-DCF)分别降低了35%和47%。
- 单位