摘要
针对复杂动态环境下,智能船舶航运过程中的路径规划与避障问题,结合海图与国际海上避碰规则,搭建了仿真平台,并进行马尔可夫决策过程抽象建模。理论分析了深度强化学习方法和传统确定性算法,在深度强化学习算法中设计了适用于智能船舶航行任务的势能引导奖励,并在不同障碍物数量及障碍物状态的条件下,通过实验比较了两者的路径规划与实时避障能力。仿真环境下,深度强化学习方法在不同难度的环境设置下,均表现出了优于传统方法的性能。随着环境难度的增大,传统方法的表现逐渐变差,但是深度强化学习方法性能稳定。深度强化学习方法在实时避碰的决策任务上,具有安全性高、航行时间短、性能稳定等优点。
- 单位