摘要

本发明公开了一种基于多模态特征的移动机器人视觉-语言导航方法,包括:1)对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;2)对于当前时刻的输入图像进行编码,得到视觉特征向量;3)根据机器人的历史动作编码得到历史特征向量;4)对步骤1)到步骤3)得到的多种模态的特征向量进行跨模态编码;5)将跨模态编码结果输入到动作决策模块,预测下一步动作并执行;6)重复步骤2)到步骤5)直到机器人停止移动,然后更新模型。本发明提供物体参考信息和历史导航信息,能让机器人根据自然语言指令进行视觉导航,实验表明所提出方法具有优秀的性能。