摘要

语音是人机交互的的主要接口,伴随着人工智能生成内容技术快速兴起,语音命令或声音交互操作易受攻击,特别是在语音欺诈或者深度合成语音方面,安全性问题日益突出。梳理音频鉴伪技术的主要发展历程,介绍音频鉴伪技术路线,基于当前音频鉴伪中深度学习,特别是端到端音频鉴伪关键技术,详述传统伪造和深度伪造音频鉴伪检测系统。实验表明,空间平移不变性以及时域上下文记忆建模可实现拼接音频检测,端到端网络取得了更好的鉴伪性能。最后从音频鉴伪检测与防御的挑战问题提出未来可能的发展方向。

  • 单位
    公安部第一研究所