基于CLIP和交叉注意力的多模态情感分析模型

陈燕; 赖宇斌; 肖澳; 廖宇翔; 陈宁江

doi:10.13705/j.issn.1671-6833.2024.02.003

摘要

针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。实验结果表明:该模型比其他多模态模型准确率提高5～14百分点,F1值提高3～12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。

单位
广西大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-01-09 19:06

基于CLIP和交叉注意力的多模态情感分析模型

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友