摘要
声纹认证系统作为一种生物认证或识别机制,在人们的日常生活中得已经到了广泛应用。但目前该系统在实际应用中容易受到欺骗攻击,还存在一定的风险。语音转换通常是指将一个人的声音个性化特征参数通过"修改变换",使之听起来像另外一个人的声音,同时保持说话内容信息不变的技术,用语音转换可生成特定目标说话人的语音,并在听觉感知上难以区分转换语音和目标语音。但是对于声纹认证系统来说,听觉上感知的相似有时还不足以欺骗认证系统。本文通过分析语音转换和声纹认证过程中所提取共同特征向量——梅尔倒谱,通过采用改进深度残差的双向长短时记忆网络对联合动态特征的梅尔倒谱实现更准确转换,同时改变损失函数优化转换网络性能并引入全局均值滤波滤除转换过程中产生的倒谱杂波,进而整体提升转换语音的质量。在提升语音转换相似度的同时保证主观感知不下降,并将转换后的语音用于欺骗两个广为采用的声纹认证系统,欺骗实验表明,该系统能够成功地欺骗这些认证系统,并且具有很高的成功率。
-
单位中国人民解放军陆军工程大学