摘要

为了及时、客观、准确地在课堂上了解每个学生的听课状态,采用一种全局多尺度和局部注意力网络(MA-Net)的表情识别模型,具体来说,模型由三个部分组成:图像预处理及特征提取、全局多尺度模块和局部注意力模块。图像预处理提高输入图像的质量要求,核主成分分析进行特征提取,全局多尺度模块融合不同感受野的特征,降低深度卷积对遮挡和非正面姿态的敏感性,而局部注意力模块可以引导网络专注于局部显著特征,同时定义一个circle损失函数以规范整个学习过程,模型在FED-RO测试集上得到了较高的准确率。

全文