摘要

本发明公开了一种基于场景融合知识的视觉语言导航方法、装置及介质,其中方法包括:获取视觉语言导航任务;根据视觉语言导航任务获取自然语言指令特征、场景特征和物体特征,使用基于语义和位置感知的图卷积网络迭代更新物体特征的权重,使用场景中的物体标签检索出知识增强的物体特征;使用基于场景和知识感知的多模态决策模块,融合所述自然语言指令特征、场景特征和物体特征,进行动作预测并更新智能体的运行状态,直到智能体选择停下。本发明通过利用场景中物体和知识的语义和位置关系,使得场景特征和自然语言指令特征进行更好地对齐,并让智能体在有限的视觉观察和未见过的环境中能有效地导航。本发明可广泛应用于视觉语言导航技术领域。