由于训练和测试场景会对语音识别的准确度产生影响,如果二者不匹配,则识别的准确度会下降,这是因为说话者在口音方面存在差异。传统的处理多口音的方法是在训练过程中汇集多个口音的数据,并以多任务的方式构建一个模型,其中任务对应于单个口音,但效果并不是很好,因此,提出一个使用共同学习口音分类器和多任务声学的模型。实验表明,提出的联合模型优于其他现有的模型。