摘要

本发明公开了一种基于Transformer的目标物体导航方法,包括:输入当前时刻环境图片和目标物体名称,得到局部环境特征向量、全局环境特征向量和目标物体特征向量;将三个向量输入目标向量Transformer模型得到当前时刻的最终目标向量;将当前时刻和上一时刻的最终目标向量输入导航方向向量Transformer模型得到导航方向向量;将导航方向向量输入A3C强化学习模型得到当前时刻的动作概率分布向量、动作评分向量和reward值,然后选取动作概率分布向量概率最高的动作执行;重复上述过程,直到机器人执行完成动作,根据不同时刻动作评分向量和reward值更新模型权重。本发明可提升导航的效果和泛化能力。