摘要
针对动态环境下深度确定性策略梯度学习(DDPG)的路径规划算法收敛速度慢、避障策略不佳等问题,提出了使用基于多步期望时序差分法的深度确定性策略梯度学习改进优化方案。首先,采用n步期望时序差分法求解最优策略,解决训练决策函数不佳的问题;其次,在求解最优策略时引入期望变量,并设置基准线(Baseline)减小方差运算,以增强算法的收敛性;然后,设计连续奖励函数提高算法对奖励的利用,并采用优先级经验回放的存储方式优化收敛速度;最后,搭建ROS仿真环境,验证上述方法。实验表明,所提算法较传统算法在收敛速度上提高了15%;累计到达目标点的成功次数提高21.6%;与动态障碍物发生碰撞的概率降低了11%。
-
单位四川轻化工大学