基于深度残差网络的变换语音伪装检测

作者:王泳; 张峻; 陈艺芳; 张梦鸽
来源:广东技术师范大学学报, 2022, 43(03): 1-7.
DOI:10.13408/j.cnki.gjsxb.2022.03.012

摘要

语音变换(Voice Transformation,VT)是一种隐藏说话人的真实身份的常用操作,它能显著增加自动说话人识别(Automatic Speaker Verification,ASV)系统的错误拒绝率,从而达到防识别的目的.语音变换操作己集成在众多主流的音频/语音处理工具中,并在众多案例中作为犯罪手段,为社会安全带来严重威胁.因此,研究语音变换伪装的检测具有重要意义.但是,目前相关的研究相对不足.为此,本文提出一种基于深度残差网络的变换语音伪装检测方法.所提网络能自动提取语音数据的深层特征,且随着网络层数的增加不会出现梯度退化的现象.另外,本文针对变换操作为语音信号频谱引入的变化特征分布,设计特殊的卷积核和池化,更有利于网络提取特征信息.实验结果表明,本文所提的网络结构可以取得96%以上的精确度,优于目前已报道的研究结果.

全文