多模态信息处理前沿综述：应用、融合和预训练

吴友政; 李浩然; 姚霆; 何晓冬

摘要

随着视觉、听觉、语言等单模态人工智能技术的突破，让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面，随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现，对多模态信息处理技术提出了更高要求，同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用，并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法，同时也综合分析了视觉-语言跨模态预训练模型的最新进展。

收藏分享被引(18) 浏览

更新时间：2024-03-20 15:11

多模态信息处理前沿综述：应用、融合和预训练

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友