摘要
本文根据基于深度学习的说话人识别研究需求,对模型输入的语音特征参数进行了提取研究。本文将传统的语音特征参数:MFCC、Filterbank、频谱图进行多种方式融合,提出4种融合特征参数,并构建基于卷积神经网络的说话人识别模型来进行有效性、可用性验证。在Free ST Chinese Mandarin Corpus数据集上进行试验,实验结果证明该融合特征参数提取方式是有效的。由三个单特征融合的特征参数:IntegrationMFS20-20-88取得最优的结果,F1值为87.56%,正确率为97.57%,等错率为4.89%,该特征参数可以用于基于深度学习的说话人识别研究。
-
单位四川大学; 四川川大智胜软件股份有限公司