基于改进PPO算法的船舶自主避碰决策方法

关巍<sup>*</sup>; 崔哲闻; 罗文哲

摘要

为了减少船舶避碰决策过程中因人为错误导致的海难事故发生，本研究提出一种基于改进近端策略优化(Proximal Policy Optimization， PPO)算法的船舶自主避碰决策方法。我们在传统PPO算法广义优势估计的基础上加入了自适应基线调整，并且使用长短期记忆网络（Long Short-Term Memory，LSTM）来改进网络结构。除此之外，船舶的航行信息和激光雷达矢量线被应用于神经网络的输入。同时，航行制导、角度偏差以及《国际海上避碰规则》( International Regulations for Preventing Collisions at Sea， COLREGs )都被纳入到改进的奖励函数设计中。通过两船和多船会遇场景仿真实验，表明：本研究所提出的避碰决策方法不仅可以使船舶实现自主航行，还能在避碰过程中符合COLREGs规则，这为处理复杂局面下的船舶避碰行为决策提供了有价值的参考依据。

单位
大连海事大学

收藏分享被引浏览

更新时间：2024-01-09 22:34

基于改进PPO算法的船舶自主避碰决策方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友