一种基音频率归一化的语种识别方法

作者:段云; 邵玉斌*; 刘晶; 龙华; 杜庆治
来源:微电子学与计算机, 2023, (05): 20-28.
DOI:10.19304/J.ISSN1000-7180.2022.0398

摘要

针对说话人发音特征影响语种辨识,导致识别性能不佳的问题,提出一种语音基音频率归一化的语种识别方法.首先,根据端点检测区分出语音中的有话段和无话段,并在有话段中提取基音频率并进行归一化处理产生声门脉冲.其次,提取声道响应,将声门脉冲和声道响应通过全极点滤波器重构出基音频率归一化的语音,最后,提取底层声学特征在ResNet网络中进行后端语种识别验证.实验结果表明,所提方法可以降低说话人发音特征对语种区分特征的影响,在灰度语谱图中效果显著,识别率达到94.3%.对MFCC、GFCC等传统底层声学特征以及改进的时域GF特征进行识别验证,所提方法的识别率均有3%~4%幅度的提升.有效减小了说话人发音特征的影响,提高了语种识别性能.

全文