视觉-语言多模态预训练模型前沿进展

朱若琳<sup>*</sup>; 蓝善祯; 朱紫星

doi:10.16196/j.cnki.issn.1673-4793.2023.01.003

摘要

近年来，多模态预训练学习在视觉-语言任务上蓬勃发展。大量研究表明，多个模态特征的表征学习预训练有利于视觉-语言下游任务的效果提升。多模态表征预训练旨在采用自监督的学习范式，包括对比学习，掩码自监督等，在大规模的图文相关性数据上进行训练，通过学习模态自身与模态间的知识先验，使模型获得通用的、泛化性较强的视觉表征能力。后BERT时代，本文介绍了视觉多模态领域基于Transformer的相关工作；对主流多模态学习方法的发展脉络进行梳理，分析了不同方法的优势和局限性；总结了多模态预训练的各种监督信号及其作用；概括了现阶段主流的大规模图像-文本数据集；最后简要介绍了几种相关的跨模态预训练下游任务。

单位
中国传媒大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-18 12:24

视觉-语言多模态预训练模型前沿进展

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友