摘要
该文旨在研究人工智能领域的强化学习问题。在处理优化问题的过程中,强化学习具有不依赖于模型信息的特点,在信息产业和生产领域逐步获得应用,并取得了较好的效果。然而,传统的强化学习算法通过随机探索获得优化行为,存在学习速度慢、收敛不及时的问题。为了提高强化学习的效率,提出一种方法,让Agent利用自身学习得到的知识,指导和加速其以后的学习过程。将Q学习和启发式Shaping回报函数结合起来,利用记忆的知识加速了Agent的学习过程。另外,证明了采用启发函数与不使用启发函数在策略优化上的一致性。针对一个路径规划问题,采用了学习过程中生成的势场函数作为启发函数,通过启发函数对强化学习的探索过程给予指导。在实验中对该方法进行了验证,分析了采用不同参数带来的不同效果,并提出了一个解决死点问题的方法。结果表明,该方法对强化学习过程有明显的加速作用,并能取得优化的搜索路径。
- 单位