摘要

<正>国际权威机器视觉问答榜单VQALeaderboard AI在"读图会意"任务中,准确率达到81.26%,我们人类在这个任务中的基准线是80.83%。在分析这个数据的作用时,报告认为人工智能在功能上的提高是因为机器视觉"需要在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解。"[1]AI场景在整合多模态认知方式的提高,意味着人工智能在介入、推算和引导三个阶段的应用越加成熟。人工智能导入阶段包括计算机采集外部数据,运用自然语言与识别系统将数据信息转换为可理解的结构性表述的过程。