Q-Learning是一种经典的强化学习算法。然而,它存在着收敛速度慢的缺点,而且由于存在着一定概率的探索,该算法可能会浪费很多时间。为解决这些问题,在Q-learning基础上引入初始化Q表格,同时提出“探索引导”方法。仿真实验结果表明,该改进可以减少训练次数,加快收敛速度,例如在Gym库中的悬崖寻路场景中,改进的方法能缩短30%的训练次数。