摘要
针对近端策略优化(PPO)算法存在的两个问题:1)难以严格约束新旧策略的差异;2)探索与利用效率较低。提出了一种基于裁剪优化和策略指导的近端策略优化算法(COAPG-PPO)。首先,通过分析PPO的裁剪机制,设计了基于Wasserstein距离的信任域裁剪方案,加强了对新旧策略差异的约束。其次,在策略更新过程中,融入了模拟退火和贪心算法的思想,提升了算法的探索效率和学习速度。为了验证算法的有效性,使用Mujoco测试基准对COAPG-PPO、CO-PPO、PPO-CMA、TR-PPO-RB和PPO算法进行对比实验。实验结果表明,COAPG-PPO在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。
- 单位