摘要

【目的】应用多模态情感分析方法,从视频信息中挖掘表达者观点,进而分析用户的情感表达。【方法】引入双模态和三模态两个层次的跨模态上下文信息帮助获取文本、视觉及语音三模态间的交互信息,并使用注意力机制过滤冗余信息,根据融合信息进行情感分析。【结果】在MOSEI数据集上,情感分类的准确率和F1值分别达到80.27%和79.23%,较基准方法的最高值分别提高了0.47%和0.87%;回归分析的平均绝对误差降低为0.66。【局限】MOSI数据集规模小,模型训练阶段出现过拟合现象,情感预测效果受限。【结论】所提模型能够充分利用不同模态间的交互信息,有效提升多模态情感预测的准确性。