摘要

在语种识别系统中,静音段干扰、话音分贝范围不一致均会导致语种识别性能下降。此外,利用语谱图进行语种识别的算法由于无法有效展现其低频部分的信息,也会导致性能无法提升。为此,提出了一种基于联合端点检测和动态范围控制的语种识别方法。首先提取语音梅尔倒谱系数的第一维系数MFCC0特征,随后使用中值滤波对特征参数进行平滑处理并进行端点检测以去除语音中静音段干扰,其次使用动态范围控制来调整不同语音的分贝值范围,最后将log刻度语谱图输入到卷积神经网络进行分类。实验结果表明,在VoxForge公共语料库下,所提算法相比传统的基于语谱图的语种识别算法性能提升了7.16%,此外,在相同实验设置下,log刻度语谱图的识别性能也优于其他主流特征,充分验证了所提算法和特征的有效性与优越性。