摘要

语音情感识别(speech emotion recognition,SER)是人机交互中的热点研究技术,但基于藏语的SER研究少有学者涉足。在构建了一个五千条藏语拉萨方言的语音情感语料库TSEC5000的基础上,将卷积神经网络(convolutional neural network,CNN)用于实现藏语语音情感的识别,并通过改变CNN的层数来改进说话人相关、说话人无关的SER性能。实验结果表明,对于藏语说话人相关的SER在4层卷积网络上获得89%的识别率,基于TSEC5000说话人无关SER在5层网络上获得最好的识别率为76%。