摘要
为解决自主船舶在航迹跟踪过程中使用最大熵强化学习作为控制器出现的收敛速度慢和训练时间长等问题,提出一种基于改进最大熵强化学习的航迹跟踪算法,引入了优先经验回放(PER)技术,并结合视线制导算法(LOS),构建PER-SAC的深度强化学习控制器,设计了相应的状态、动作空间和奖励函数。仿真结果表明,设计的PER-SAC控制器能快速收敛,收敛稳定后的控制器相较于原始SAC控制器控制性能更稳定,且控制精度更高,为自主船舶的航迹跟踪控制提供了一定参考价值。
-
单位中国舰船研究设计中心; 武汉理工大学