摘要
文中提出基于双延迟深度确定性策略梯度(twin-delayed deep deterministic policy gradient, TD3)算法的无人船自主路径规划改进模型.模型中通过对良好驾驶经验量化以提升算法效率,还通过增加目标点吸引策略的方式优化奖励函数以确保导航标准化的同时加快算法收敛速度.对模型进行训练并将结果与深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法结果进行比较,得出其性能明显优于DDPG.借助人工势场法(artificial potential field, APF)对其优化得到APF-TD3模型.比较TD3与APF-TD3的训练结果表明:APF-TD3模型在收敛速度、稳定性等方面均更优.仿真结果显示:其规划得到的路径平滑、无冗余,验证了改进模型的有效性及优越性.
-
单位武汉理工大学; 上海国际港务(集团)股份有限公司; 上海国际港务(集团)股份有限公司