摘要

本发明公开了一种基于自然语言和机器视觉实现机器人自主导航的方法,包括:1)机器人从初始位置开始,在每一轮对话即每一时刻都获取语言信息和视觉信息;2)通过注意力机制对语言信息进行特征提取获得语义特征;通过Resnet152对视觉信息进行特征提取,获得低阶视觉特征和图像分类特征;通过faster-RCNN和U-net对视觉信息进行特征提取,获得目标检测特征和语义分割特征;3)通过注意力机制将当前时刻及前一时刻的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征和语义特征进行融合,得到融合特征;4)将融合特征输入softmax分类器中进行当前时刻的移动方向预测。本发明利用机器人所处环境的视觉信息和语言信息,在无需预先获取精确度量地图的条件下进行机器人自主导航。