一种基于场景融合知识的视觉语言导航方法、装置及介质

谭明奎; 罗宇成; 刘飞; 杜卿

摘要

本发明公开了一种基于场景融合知识的视觉语言导航方法、装置及介质,其中方法包括：获取视觉语言导航任务；根据视觉语言导航任务获取自然语言指令特征、场景特征和物体特征,使用基于语义和位置感知的图卷积网络迭代更新物体特征的权重,使用场景中的物体标签检索出知识增强的物体特征；使用基于场景和知识感知的多模态决策模块,融合所述自然语言指令特征、场景特征和物体特征,进行动作预测并更新智能体的运行状态,直到智能体选择停下。本发明通过利用场景中物体和知识的语义和位置关系,使得场景特征和自然语言指令特征进行更好地对齐,并让智能体在有限的视觉观察和未见过的环境中能有效地导航。本发明可广泛应用于视觉语言导航技术领域。

单位
华南理工大学

收藏分享被引浏览

更新时间：2024-12-27 19:34

一种基于场景融合知识的视觉语言导航方法、装置及介质

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友