摘要

提出了一种包含在线采样、离线学习两个阶段的基于数据驱动的迭代自适应动态规划(ADP)算法,仅通过在线数据,解决输入约束的连续未知模型的非线性系统的H∞控制问题。通过策略迭代(PI)和迭代强化学习(IRL)方法推导出无模型(HJI)方程。构建3个神经网络,在线采集系统数据结束后,利用离线学习方法,近似求解无模型HJI方程,进而得到值函数、控制策略和扰动策略,神经网络的未知参数通过最小二乘方法求解。仿真结果验证了算法的可行性。