摘要
随着技术更迭,最新语音合成和语音转换模型生成的伪装语音在感知上与真正语音无法区分,这严重威胁着公众的个人信息安全。现有的检测方法虽有可观进展,但仍存在检测声学环境单一、对未知欺骗攻击泛化能力差等问题。针对以上问题,提出了一种基于深度残差收缩网络(Deep Residual Shrinkage Networks, DRSN)的多特征联合语音欺骗检测方法,首先DRSN利用基于深度注意力机制的自适应阈值学习模块和软阈值模块提高了在复杂声学环境下的特征学习能力,再选取合适的声学特征构建单类特征-DRSN检测模型,最后执行多模型联合检测以实现互补,进一步提升整体性能。使用ASVspoof2019数据集的实验结果表明,相较于最佳基线系统,本方法在t-DCF和EER性能指标上分别降低47%和53%。
- 单位