基于自监督图对比学习的视频问答方法

姚暄; 高君宇; 徐常胜

doi:10.13328/j.cnki.jos.006775

摘要

视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性.

单位
中国科学院大学; 中国科学院自动化研究所; 鹏城实验室; 模式识别国家重点实验室

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 17:04

基于自监督图对比学习的视频问答方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友