摘要

针对以往的通道注意力忽略了面部图像中蕴含的坐标信息特征的问题,提出了一种融合坐标信息的人脸表情识别模型。该模型以残差网络(residual network, Resnet)为基础,在网络中嵌入坐标注意力机制,通过在通道注意力中捕获坐标信息辅助生成注意力权重,使得注意力机制不仅考虑不同通道之间的特征,也考虑图像坐标信息和形状特征,进而提高人脸表情识别的准确度。结果表明,该模型在FER2013和CK+表情识别数据集上的准确率分别为74.20%和94.55%,效果优于现有诸多主流方法,在人脸表情识别任务上获得了较优的性能。

全文