摘要
针对语音情感识别中数据样本不足、识别准确率不高等问题,本文将深度残差网络(Resnet)和Transformer模型相结合,设计了一种基于Resnet结构和Transformer结构的Res-Transformer模型,该模型由两个并行的Resnet结构和Transformer编码器结构构成,利用Resnet结构处理空间信息、Transformer编码器结构处理时间信息。此外,使用MFCC特征作为模型的输入,MFCC特征可以提取出语音信号中的低级和高级情感特征;同时结合高斯白噪声(AWGN)将数据增强,以防止过拟合。最后,采用中心损失函数和SoftMax交叉熵损失函数联合决策的方式,缩短了同种情感之间的距离,进一步增加了分类的准确率。实验结果表明,本文提出的Res-Transformer模型识别的准确率为84.89%。在RAVDESS数据集上,与使用CNN-Transformer等结构相比,Res-Transformer模型的语音情感识别准确率实现了有效提升。
- 单位