网箱巡检是网箱养殖的必要环节。随着渔业设施地智能化发展,使用AUV实现自主网箱巡检是未来的发展趋势。在水下难以得到机器人的精确动力学模型。为此,论文提出基于强化学习算法PPO的水下机器人自主网箱巡检方法。以声呐数据作为感知输入,根据航向、偏离距离等因素设计了多约束奖励函数,利用PPO算法学习出最优的网箱巡检控制策略。搭建了水下网箱养殖仿真环境,在该环境下的仿真结果表明,在学习到的策略的控制下,AUV能够实现网箱的自主绕行巡检,轨迹稳定平滑,验证了论文方法的有效性。