摘要

针对三维未知环境中存在的高复杂度和不确定性的问题,提出一种在有限观测空间优化策略下基于深度强化学习的移动机器人三维路径规划方法。首先,在有限观测空间下采用深度图信息作为智能体的输入,模拟移动受限且未知的复杂三维空间环境;其次,设计了两阶段离散动作空间下的动作选择策略,包括方向动作和唯一动作,以减少搜索步数和时间;最后,在近端策略优化算法基础上,添加门控循环单元结合历史状态信息,以提升未知环境中搜索策略的稳定性,进而提高规划路径准确度和平滑度。实验结果表明,相较于A2C(Advantage Actor-Critic)平均搜索时间缩短了49.07%,平均规划路径长度缩短了1.03%,同时能够完成线性时序逻辑约束下的多目标路径规划任务。