摘要

针对部分系统存在输入约束和不可测状态的最优控制问题,本文将强化学习中基于执行–评价结构的近似最优算法与反步法相结合,提出了一种最优跟踪控制策略.首先,利用神经网络构造非线性观测器估计系统的不可测状态.然后,设计一种非二次型效用函数解决系统的输入约束问题.相比现有的最优方法,本文提出的最优跟踪控制方法不仅具有反步法在处理n阶系统跟踪问题上的优势,而且保证了所有虚拟控制器均为最优,同时,该方法可以简化控制器设计过程.最后,基于李雅普诺夫稳定性理论,证明了闭环系统中的所有信号一致最终有界.通过仿真结果验证该方法的有效性.