摘要
现有的深度Q网络进行路径规划时不仅存在动作状态值高估现象,且无法满足机器人进行实时路径规划的需求。基于此现状,论文提出了一种基于稠密卷积网络和竞争架构的改进路径规划算法。首先,论文提出一种基于稠密卷积网络和竞争架构的改进路径规划网络,它拥有更轻盈的深度强化学习网络。然后,论文用强化学习方法解决路径规划问题,使用双重深度Q网络算法训练该网络,从而近似最优动作状态值函数。最后,在自定义的gridmap环境中进行规划实验。实验结果证明,该算法不仅拥有更少的模型参数、更少的计算时间、更低的训练开支,能提升路径规划的实时性,而且能保证机器人对快速变化的环境具有很强的泛化能力,并能将路径规划成功率平均提高...
- 单位