摘要
针对传统基于模型的控制方法在处理间歇过程任务时会因为其复杂的非线性动态导致模型不准确,进而影响控制性能的问题,结合强化学习(RL),提出一种不需要过程模型的间歇过程控制方案。首先,该方法通过双行动者并行训练的结构来解决深度强化学习算法中值函数高估计的问题,提高算法的学习效率。其次,为每个行动者设置独立的经验池来保持双行动者的独立性。此外,为RL控制器设置了一种新型奖励函数,引导过程回到预定轨迹,并通过引入延迟策略更新方法来缓解参数更新时的时序差分(TD)误差累积问题。最后利用青霉素发酵过程的仿真,展示了基于双行动者深度确定性策略梯度(TA-DDPG)算法的控制器对间歇过程控制的有效性。
- 单位