摘要

为解决系统信息完全未知的无限时域离散时间平均场线性二次(LQ)最优控制问题,利用完全无模型强化学习(RL)方法,在系统动力学中引入平均场项和代价函数。基于所提出的RL算法和最小二乘时序差分估计,成功获得了最优镇定控制。结合引入off-policy学习的思路,改善了控制策略,证明了该算法在估计误差保持较小的情况下可以产生稳定策略,数值实例也证明了所提出算法的有效性。