摘要
目的以方言语音学为视角,通过计算机分析和选择模型训练数据,探究提高口音自动识别准确率及优化模型训练数据的方法。方法采用音系分析、语音信号处理、数学模型实验和统计的方法,对包含约81400段电子语音的37个方言点(每个方言点约2 200段),逐一进行音系提炼、挑选音系例字、电子语音预处理和提取梅尔倒谱系数(MFCC),构建高斯混合模型(GMM)进行口音识别分析。结果从方言语音中提取的音系例字作为训练集(约260字)的识别模型可以较好地完成口音识别任务,对比任选300个例字作为训练集的识别模型,无论是识别准确度还是待测语音数量的要求都有显著优势。结论基于语言学音系例字的口音自动识别方法,已经完成37个方言点高斯混合模型的建立,可以用于口音识别中辅助辨别分析。
-
单位山西警察学院; 山西大学