MSAM:针对视频问答的多阶段注意力模型

梁丽丽; 刘昕雨; 孙广路; 朱素霞<sup>*</sup>

doi:10.15938/j.jhust.2022.04.014

摘要

视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前，基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题，提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视频、音频以及文本等多模态特征输入到多阶段注意力模型(MSAM)中，通过逐阶段的定位方式精准找到与回答问题相关的视频信息，用于答案生成。为了提高特征融合的有效性，提出一种三模态压缩级联双线性(TCCB)算法计算不同模态特征之间的相关性。MASMN在ZJL数据集上进行实验，平均准确率均为54.3%,比传统方法提高了近15%,比现有方法提高了近7%。

单位
哈尔滨理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-20 20:33

MSAM:针对视频问答的多阶段注意力模型

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友