摘要

本发明公开了一种基于MCMC优化Q学习的自主航行器控制参数在线调节方法,包括以下步骤:首先根据实际的情况将航行器PID控制参数的可能变化情况进行统计得出参数调节的动作集合,并根据航行器控制经验初始化PID控制参数;然后随机选择一种动作作用于自主航行器,根据Q学习算法中得到的各个动作的值函数值Q*运用MCMC算法采样得出下一时刻采取的动作,并且随着时间的推移对Q学习算法中的学习因子l采用SPSA步长调节算法进行调节;最后经过控制参数的反复调节得出在当前环境下的最优控制参数。本发明解决了自主航行器在航行过程中的超调和时延问题,使自主航行器快速适应环境的变化并快速平稳的到达目的地。