基于Transformer与增强信息融合的双源情感识别

闫超; 贾振堂<sup>*</sup>

doi:10.19652/j.cnki.femt.2304691

摘要

为解决当前多模态情感识别效果不佳的问题，提出了一种基于Transformer与增强信息融合的双源情感识别模型，模型由音视频编码分支网络和双源增强特征融合模块组成。其中，视频编码分支利用MobileViTv2提取每帧视频的空间特征，并通过在Transformer编码器结构中内嵌残差结构，强化各帧短期关联语义信息的提取能力。在音频特征提取部分构建了维度匹配器，避免了潜在异构鸿沟，提高了模型训练的鲁棒性。在音视频特征融合处引入低参数量跨模态注意力机制，从两个角度同时增强特征融合能力。通过对比和消融实验证明了方法在多模态情感识别任务中的有效性。

单位
上海电力大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 05:11

基于Transformer与增强信息融合的双源情感识别

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友