摘要

深度学习方法在图像识别领域得到大量研究和应用,也逐渐被应用于语种识别。针对深度学习语种识别模型中所用二维特征图语种间相似度大,容易混淆的问题,提出基于反事实注意力学习的ResNeSt语种识别模型。在建立云南边境语种广播语音数据集的基础上,首先,提取MFCC、Fbank和语谱图作为FcaNet、ResNet和ResNeSt三种网络的输入,对比三种网络下不同信噪比不同语音特征的识别效果,得出在语种识别任务中综合表现最佳的网络模型ResNeSt和语音特征Fbank;接着,在识别效果最佳的ResNeSt网络模型中引入反事实注意力学习模块,利用反事实因果关系来衡量ResNeSt网络中注意力特征的质量,促使网络学习更加有效的注意力特征,以此提高网络训练效果。实验结果表明,加入反事实注意力学习后,Fbank特征语种识别率较基线系统提升1.61%,对于MFCC、Fbank和语谱图三种特征,基于反事实注意力学习的ResNeSt网络较基线ResNeSt网络平均提升1.33%。反事实注意力学习帮助注意力机制关注更多重要语种区分性信息,有效提升了网络模型在语种识别任务中的识别效果。