摘要

针对自主导航探索算法易陷入局部区域的问题,提出了融合采样与深度强化学习的探索算法。首先,局部采用长短期记忆(LSTM)网络获得无人车历史位姿信息进而避免重复走向已探索区域;其次,利用深度强化学习输出策略最优的动作并设计奖励函数以激励无人车充分探索未知区域;最后,考虑无人车水平移动因素,通过解非对称旅行商问题(ATSP)生成一条符合其当前姿态的全局探索路径。2 000 s矿道仿真环境中,所提出的算法相较于无人机自主探索(TARE)算法,探索面积增加346.3 m2,总行驶距离减少209.4 m;在真实场景试验中,该探索算法用时1 014 s完成面积为3 444.3 m2的地下车库探索返回起点,并完成环境地图构建。

全文