摘要

针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更佳的收敛速度与稳定性.