摘要

传统的Q学习算法用于无人车路径规划时,存在规划效率低和收敛速度慢等问题,为此,提出一种基于改进Q学习算法的无人物流配送车路径规划方法。该算法借鉴模拟退火算法的能量迭代原理,对贪婪因子ε进行调整,使其在训练过程中动态变化,以平衡探索与利用之间的关系,从而提高规划效率。同时,为了让目标点牵引无人物流配送车移动以加快算法收敛速度,将奖励机制中的奖励值由离散值变为连续值,并使其随着无人物流配送车与目标点的欧式距离减小而增大。在两种不同的环境下对改进的Q学习算法进行仿真实验。在实验1中与SARSA算法和传统Q学习算法进行比较,仿真结果表明,改进后的Q学习算法可以高效地规划出一条从起始点至目标点的路径,步数为34步,优于其他两种算法的路径质量。在实验2中通过改变道路环境,验证了改进Q学习算法对不同环境的适应性,结果表明规划效率和收敛速度依然优于传统Q学习算法。

全文