基于多模态融合的视频情感分析技术

作者:陈诗汉; 马洪江; 王婷; 何松泽
来源:成都信息工程大学学报, 2022, 37(06): 656-661.
DOI:10.16836/j.cnki.jcuit.2022.06.007

摘要

介绍一种视频多模态情感识别方法。一个视频通常通过文本、声音和视觉图像等多模态信息来表达同一种情感主题,而如何将同一个视频中不同异构数据之间的信息融合并最大程度地利用是目前需要重点攻克的难题。通过互信息最大化的方法,高效融合视频中的文本、声音与视觉图像等多模态异构数据,尽可能多地消除模态之间的差异,最终实现对视频的情感进行识别分析。在公开的MOSEI多模态数据集上进行实验,实验结果显示MAE值达55.4。相比之前的一些模型,本模型效果更优,且实验模型构造不繁琐,为后面相关的研究打下良好的基础。