摘要
针对自然状态下小群体图像的情绪分类,提出基于面部、场景和骨架3种视觉线索的混合深度网络,分别利用3类卷积神经网络(convolutional neural networks,CNN)分支独立学习,通过决策融合获得最终的情绪分类。其中面部CNN通过注意力机制学习不同人脸的权重,获得整张图片关于人脸的特征表示,利用large-margin softmax (L-softmax)损失函数进行判别性学习;使用先进的姿势估计方法 OpenPose获得图像中所有人体骨架,作为基于骨架卷积神经网络的输入。考虑图片的场景信息,将整张图片作为基于场景CNN的输入。实验结果表明,改进模型对自然状态下3种类型的小群体情绪识别鲁棒,取得了较高的准确率。
- 单位