摘要

针对基于学习的机器人导航方法对数据的依赖性高和在一些特定环境下的表现不完美的问题。例如,在空旷场景下无法走直线,在障碍物密集场景下碰撞率高。为了提高机器人的导航性能,提出了一种基于碰撞预测的强化模仿学习导航方法。首先,在无模型的情况下,根据机器人的性能,建立马尔科夫决策过程(Markov Decision Process, MDP) 中所需要的状态空间、动作空间、奖励函数。采用深度强化学习(Deep Reinforcement Learning, DRL)在仿真环境中训练使得机器人获得能够在多障碍环境中导航和避障能力。接着使用收集到的专家数据按照模仿学习方法对策略继续训练改善强化学习在障碍物稀疏合密集两种极端情况下表现不完美的问题。最后,设计了一个碰撞预测模型,将传统控制与深度学习相结合,根据预测结果,使机器人自适应地在不同环境下选取合适的控制策略,大大提高了导航的安全性。通过实验在大量从未遇到过的场景下验证了所提出方法的导航性能和泛化能力。