摘要
随着深度学习网络模型在生物识别领域的应用,将说话人识别的发展推向一个新的阶段。早期用于说话人识别的深度学习模型主要为深度神经网络(DNN),在一定程度上改善了说话人识别的性能,但模型训练速度和识别精度都有待提升。笔者基于提取局部特征,引入模型训练复杂程度更低的卷积神经网络(CNN),采用跳跃连接的方法,解决了CNN在训练阶段随着卷积层数的增加引起的梯度消失问题,并在训练阶段对话语采用基于注意力机制的由帧级到段级聚合,以及softmax loss、center loss联合监督的方法对模型进行训练,大幅提升了CNN用于说话人识别的性能。
-
单位中国传媒大学