摘要
近年来,预训练模型(PTM)的出现,将人工智能带入了一个新时代。通过利用复杂的预训练目标和大量的模型参数,预训练模型可以有效地获得无标记数据中的丰富知识。在多模态中,预训练模型的发展还处于初期。依据具体模态的不同将目前大多数的多模态预训练模型分为图像-文本预训练模型和视频-文本预训练模型,依据数据融合方式的不同还可将多模态预训练模型分为单流模型和双流模型两类。首先总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及对模型的性能和实验数据进行比较;然后,介绍了M6模型、跨模态提示调优(CPT)模型、VideoBERT模型和Alicemind模型在具体下游任务中的应用场景;最后,对多模态预训练模型相关工作面临的挑战以及未来可能的研究方向进行了总结。
- 单位