摘要
针对已有自适应PID控制器收敛速度慢和计算效率低的不足,基于异步优势行动者评论家(Asynchronous Advantage Actor-Critic,A3C)算法设计了一种新的自适应PID控制器.该控制器利用A3C结构的多线程异步学习特性,并行训练多个行动者评论家(Actor-Critic, AC)结构的智能体,每个智能体采用多层前馈神经网络逼近策略函数和值函数实现在连续动作空间中搜索最优的参数整定策略,以达到最佳的控制效果.算法在提高计算效率的同时降低了学习样本的相关性.在仿真实验中通过与已有的多种自适应PID控制器性能的对比分析说明,该方法具有收敛速度快、自适应能力强的特点.
- 单位