采用分类经验回放的深度确定性策略梯度方法

时圣苗; 刘全<sup>*</sup>

doi:10.16383/j.aas.c190406

摘要

深度确定性策略梯度(Deep deterministic policy gradient, DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法 (DDPG with temporal difference-error classification, TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法 (DDPG with reward classification, RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比, TDC-DDPG和RC-DDPG方法具有更好的性能.

单位
吉林大学; 苏州大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-20 23:01

采用分类经验回放的深度确定性策略梯度方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友