摘要

目的 探讨人机交互领域中解决相似情绪难以区分的新型识别方法。方法 采用将音频、视频以及光流三种不同模态融合的方式建立一种跨模态融合的短视频情绪识别方法ICVNet。结果 (1)基于IEMOCAP建立了一个多模态情绪识别数据集;(2)分别提取音频、视频以及光流三种模态的特征信息并加载三种模态的预训练权重来进行决策级的特征融合;(3)构建情绪识别融合分类模块;(4)实验结果表明,ICVNet的情绪识别分类准确率达到80.77%。结论 本文建立的跨模态融合的短视频情绪识别方法ICVNet可以有效地提升人机交互场景下的情绪识别准确率。

全文