摘要

为提高小样本声纹识别效率,该文提出了一种TL-CNN-GAP网络模型下的小样本声纹识别方法。该方法利用源数据集预训练卷积神经网络(Convolutional Neural Network,CNN),将训练好的卷积层与降采样层用迁移学习(Transfer learn-ing,TL)的方法迁移到小样本的目标集上,最后用全局平均池化层(Global Average Pooling,GAP)替换重训练CNN中的全连接层(Fully Connected layers,FC)。这样不仅减少了小样本声纹识别模型的训练时间,而且相比传统的声纹识别模型的识别率有着显著地提高。此外,为了解决在实际运用中声纹训练样本不足的问题,该文采用了一种凸透镜成像的图像增多的算法,根据凸透镜成像原理,通过改变光谱图的大小,从而获得更多的训练数据。实验中采取含有630人的TIMIT语音数据库与实验室自建的40人语音库作为小样本声纹数据集进行训练、验证和测试。实验表明,与原网络相比,用GAP替代CNN中的全连接层的方法,使其重训练时间缩短了32.5%,该模型与传统的GMM、GMM-UBM和GMM-SVM网络模型相比,声纹识别率有效地提高了3.3%—9.1%,为小样本声纹识别提供了一种切实可行的方法。

全文