带有惩罚措施的自竞争事后经验重播算法

王子豪<sup>*</sup>; 钱雪忠; 宋威

摘要

自竞争事后经验重播（SCHER）是在事后经验重播（HER）算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下，通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题：一是无法处理智能体由于奖励稀疏所产生的大量重复数据，这些无效数据会对经验池造成污染；二是虚拟目标可能会随机选择到一些对完成任务没有帮助的中间状态，导致学习偏差。针对这些问题，SCHER算法提出了两个改进策略：一是增加自适应的奖励信号，对智能体做出的无意义动作进行惩罚，使其快速规避此类操作；二是使用自竞争策略，通过竞争产生针对同一任务下的两组不同数据，对比分析后找到使智能体在不同环境中成功的关键步骤，提高生成虚拟目标的准确程度。实验结果表明，SCHER算法可以更好的利用经验回放技术，将平均任务成功率提高5.7个百分点，拥有更高的准确率和泛化能力。

单位
江南大学

收藏分享被引浏览

更新时间：2024-01-09 16:04

带有惩罚措施的自竞争事后经验重播算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友