摘要
自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大量重复数据,这些无效数据会对经验池造成污染;二是虚拟目标可能会随机选择到一些对完成任务没有帮助的中间状态,导致学习偏差。针对这些问题,SCHER算法提出了两个改进策略:一是增加自适应的奖励信号,对智能体做出的无意义动作进行惩罚,使其快速规避此类操作;二是使用自竞争策略,通过竞争产生针对同一任务下的两组不同数据,对比分析后找到使智能体在不同环境中成功的关键步骤,提高生成虚拟目标的准确程度。实验结果表明,SCHER算法可以更好的利用经验回放技术,将平均任务成功率提高5.7个百分点,拥有更高的准确率和泛化能力。
- 单位