摘要
针对使用强化学习算法解决移动机器人拣选系统(RMFS)中AGV路径规划所存在的数据利用效率低、有效数据采集困难问题,提出了一种结合行为克隆方法和奖励重构方法的新的强化学习训练框架,来提升神经网络的训练效果。行为克隆方法通过监督学习的方式,让神经网络直接学习专家经验,来迅速提升神经网络的决策能力;奖励重构方法通过更加精细的奖励值函数设计,来提升强化学习的训练效果。实验表明,同时使用行为克隆方法与奖励重构方法的强化学习过程,其训练效果远远优于标准的强化学习算法(既不使用行为克隆方法也不使用奖励重构方法)。
- 单位