摘要
为了减少船舶避碰决策过程中因人为错误导致的海难事故发生,本研究提出一种基于改进近端策略优化(Proximal Policy Optimization, PPO)算法的船舶自主避碰决策方法。我们在传统PPO算法广义优势估计的基础上加入了自适应基线调整,并且使用长短期记忆网络(Long Short-Term Memory,LSTM)来改进网络结构。除此之外,船舶的航行信息和激光雷达矢量线被应用于神经网络的输入。同时,航行制导、角度偏差以及《国际海上避碰规则》( International Regulations for Preventing Collisions at Sea, COLREGs )都被纳入到改进的奖励函数设计中。通过两船和多船会遇场景仿真实验,表明:本研究所提出的避碰决策方法不仅可以使船舶实现自主航行,还能在避碰过程中符合COLREGs规则,这为处理复杂局面下的船舶避碰行为决策提供了有价值的参考依据。
- 单位