摘要
提出了一种可学习的跨域鲁棒说话人识别方法。在梅尔频率倒谱系数(MFCC)声学特征提取器的基础上,引入可学习的每通道能量归一化代替对数运算,得到Mel-learnable-PCENs声学特征提取器,并联合ECAPATDNN神经网络实现参数自动优化。在VoxCeleb1-dev、VoxCeleb-O与VoxMovies公开数据集上对改进方法进行训练与测试。结果表明:Mel-learnable-PCENs-SV与MFCC-SV相比,在VoxCeleb-O中等错误率和最小检测代价分别相对降低了8.35%和15.23%,在VoxMovies中等错误率相对降低了8.42%。在Sharing-VAN 2.0车载硬件平台Jetson AGX Xavier验证了Mel-learnable-PCENs的有效性。
-
单位湖北汽车工业学院