一种基于多模态特征的移动机器人视觉-语言导航方法

董敏; 钟浩钊; 毕盛

摘要

本发明公开了一种基于多模态特征的移动机器人视觉-语言导航方法,包括：1)对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量；2)对于当前时刻的输入图像进行编码,得到视觉特征向量；3)根据机器人的历史动作编码得到历史特征向量；4)对步骤1)到步骤3)得到的多种模态的特征向量进行跨模态编码；5)将跨模态编码结果输入到动作决策模块,预测下一步动作并执行；6)重复步骤2)到步骤5)直到机器人停止移动,然后更新模型。本发明提供物体参考信息和历史导航信息,能让机器人根据自然语言指令进行视觉导航,实验表明所提出方法具有优秀的性能。

单位
华南理工大学

收藏分享被引浏览

更新时间：2024-12-27 20:58

一种基于多模态特征的移动机器人视觉-语言导航方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友