摘要
多模态情感分析旨在从文本、图像和音频数据中提取和整合语义信息,从而识别在线视频中说话者的情感状态。尽管多模态融合方案在此研究领域的应用已取得一定成果,但先前的研究在处理模态间分布差异和关系知识的融合上仍有所欠缺。本文提出一种创新的多模态提示门模块,其能够将非语言信息转换为融合文本上下文的提示,利用文本信息对非语言信号的噪声进行过滤,得到包含丰富语义信息的提示,以增强模态间的信息整合。此外,本文提出了一种实例到标签的对比学习框架,在语义层面上区分隐空间里的不同标签以便进一步优化模型输出。通过在三个大规模情感分析数据集上的实验结果表明,本文的方法在中英文数据集以及不同的评估指标上都达到了最先进的性能。本文方法的二分类精度提高了约0.7%,三分类精度提高了超过2.5%,达到67.1%。本文的工作有助于将多模态情感分析引入到许多不同领域,如用户画像、视频理解、AI面试等。未来,这项工作还可以促进社交媒体用户情感的研究,为继续挖掘社交用户情感提供宝贵的经验。
- 单位