融合LSTM-GRU网络的语音逻辑访问攻击检测

作者:杨海涛; 王华朋*; 牛瑾琳; 楚宪腾; 林暖辉
来源:数据采集与处理, 2022, 37(02): 396-404.
DOI:10.16337/j.1004-9037.2022.02.012

摘要

为进一步提高语音欺骗检测的准确率,提出一种融合LSTM-GRU网络的语音逻辑访问攻击(语音转换、语音合成)检测方法。融合LSTM-GRU网络是由长短期记忆网络(Long short-term memory,LSTM)层、门控循环神经单元(Gated recurrent unit,GRU)层、丢弃层、批归一化层和全连接层串联结合的一种混合网络,其中LSTM层可以解决语音序列中的长时依赖问题,GRU层则可降低模型参数量。实验在ASVspoof2019 LA数据集上进行,提取20维的梅尔倒谱系数特征用于模型训练,在测试阶段使用训练好的LSTM-GRU模型对测试集中的语音进行欺骗检测。与GRU网络及LSTM网络的比较结果表明:LSTM-GRU网络在3种网络模型中正确识别率最高,等错误率(Equal error rate,EER)比ASVspoof2019挑战赛所提供基线系统低27.07%,对逻辑访问攻击语音检测的平均准确率达到98.04%,并且融合LSTM-GRU网络具备训练时间短、防止过拟合及稳定性高等优点。结果证明本文方法可有效应用于语音逻辑访问攻击检测任务中。