视觉-语言多模态预训练模型前沿进展

作者:朱若琳*; 蓝善祯; 朱紫星
来源:中国传媒大学学报(自然科学版), 2023, 30(01): 66-74.
DOI:10.16196/j.cnki.issn.1673-4793.2023.01.003

摘要

近年来,多模态预训练学习在视觉-语言任务上蓬勃发展。大量研究表明,多个模态特征的表征学习预训练有利于视觉-语言下游任务的效果提升。多模态表征预训练旨在采用自监督的学习范式,包括对比学习,掩码自监督等,在大规模的图文相关性数据上进行训练,通过学习模态自身与模态间的知识先验,使模型获得通用的、泛化性较强的视觉表征能力。后BERT时代,本文介绍了视觉多模态领域基于Transformer的相关工作;对主流多模态学习方法的发展脉络进行梳理,分析了不同方法的优势和局限性;总结了多模态预训练的各种监督信号及其作用;概括了现阶段主流的大规模图像-文本数据集;最后简要介绍了几种相关的跨模态预训练下游任务。

  • 单位
    中国传媒大学

全文