摘要

为解决SAC(Soft Actor-Critic)算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放(PER)技术,提出了PER-SAC算法。首先将算法以等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,提高了机器人训练过程的收敛速度和稳定性;其次优化TD误差的计算,降低训练偏差;然后利用迁移学习,使机器人从简单环境到复杂环境逐步训练,以加快训练速度;另外,算法设计了改进的奖励函数,增加机器人的内在奖励,解决稀疏奖励环境的问题;最后在ROS(RobotOperatingSystem)平台下进行仿真测试。仿真结果表明,在不同的障碍物环境中,PER-SAC算法均比原始算法收敛速度快、规划的路径长度短,并且PER-SAC算法能够减少训练时间,在路径规划性能上明显优于原始算法。