摘要
为解决当前多模态情感识别效果不佳的问题,提出了一种基于Transformer与增强信息融合的双源情感识别模型,模型由音视频编码分支网络和双源增强特征融合模块组成。其中,视频编码分支利用MobileViTv2提取每帧视频的空间特征,并通过在Transformer编码器结构中内嵌残差结构,强化各帧短期关联语义信息的提取能力。在音频特征提取部分构建了维度匹配器,避免了潜在异构鸿沟,提高了模型训练的鲁棒性。在音视频特征融合处引入低参数量跨模态注意力机制,从两个角度同时增强特征融合能力。通过对比和消融实验证明了方法在多模态情感识别任务中的有效性。
- 单位