摘要

2022年底,OpenAI发布的ChatGPT聊天机器人将人工智能对通用自然语言任务的理解与生成能力提升到新的高度,引发各界广泛关注。当前ChatGPT仅支持文本模态的交互,而真实世界的感知则依赖于图像、文本、视频、音频等多个模态的协同处理。如何借鉴人脑的跨模态处理特性,跨越视觉、语言、听觉等不同感官信息实现对真实世界的感知和认知,是提升模型通用感知和交互能力、实现通用人工智能的关键。本文从ChatGPT的核心技术出发,分析ChatGPT在文本单模态限制下所面临的问题,并介绍ChatGPT与多模态分析技术结合的部分代表性工作,最后从多模态预训练、数据—知识双轮驱动等角度对ChatGPT多模态化的未来研究方向进行展望。

全文