摘要
视觉目标导航作为视觉导航的重要任务之一,要求智能体在给定导航目标的前提下,仅仅依靠视觉图像信息探索环境并导航到目标跟前,并提出任务结束动作。现有视觉目标导航方法基于端到端的深度强化学习框架来解决视觉目标导航问题,但仍存在导航成功率和效率不高的不足。为了进一步提升视觉目标导航方法下智能体的导航性能,针对强化学习中状态构建不佳和奖励稀疏问题,利用缩放点积注意力机制引入当前时间步和上一时间步的状态之间的关系,用于构建更佳的当前时间步的状态;利用奖励塑造自动化设置奖励空间,解决奖励稀疏问题。最终提出一种基于注意力机制和奖励塑造的深度强化学习视觉目标导航方法。在AI2-THOR数据集上进行实验,并使用成功率和路径长度加权成功率评估方法性能。实验结果显示,相较于以往的方法而言,提出的方法在成功率上提高了7%,在路径长度加权成功率上提高了20%。所提出的方法使用注意力机制和奖励塑造,构建了更好的状态和奖励空间,能够进一步提升智能体的导航成功率和效率。
- 单位