摘要

水下回收过程中,AUV航行速度受到多种因素影响而产生变化,艉部操纵舵效随之改变,直接影响了AUV回收路径跟踪控制性能。根据AUV航行状态,采用强化学习方法对AUV控制器进行自主学习优化,能够改善AUV航向及深度响应的性能指标,提高路径跟踪控制性能。建立AUV路径跟踪导引律,设计航向及俯仰运动滑模控制器,保证系统对外扰动的鲁棒性;采用Q学习方法,根据AUV航速、跟踪误差及其变化率,对滑模控制参数进行离线训练优化,搭建RBF网络加快训练过程,避免"维数灾"现象;将训练得到的RBF-Q学习网络应用于在线控制,与传统滑模控制器进行跟踪控制对比。仿真结果验证了算法的有效性。