摘要
在说话人识别研究中,现有的深度学习方法大多只考虑了语音的空间特征或时序特征,且模型训练时间长、识别准确率低。语谱图是语音信号转换后在时频两域均具有独立特征的特殊图像。为了充分提取语谱图时频两域的情感特征,结合卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆(Long Short-Term Memory,LSTM)网络的特点,提出了一种基于参数迁移和C-LSTM的说话人识别方法。该方法以语谱图作为网络输入,利用CNN进行训练得到预训练模型并迁移参数,之后将CNN输出的特征矩阵进行转换后输入LSTM进行训练。实验结果表明,该方法提高了声纹识别的准确率,并加快了网络的收敛速度。
-
单位中国刑事警察学院