摘要

针对状态预测误差直接作为内在好奇心奖励,在状态新颖性与奖励相关度低的任务中强化学习智能体不能进行有效探索的问题,提出一种基于奖励预测误差的内在好奇心模块(RPE-ICM)。PRE-ICM是利用奖励预测误差网络模型学习修正状态预测误差奖励,并将RPE模型的输出作为一种内在奖励信号去平衡探索过度与探索不足,使得智能体能够更有效地探索环境并利用奖励去学习技能,从而达到更好的学习效果。在不同的Mu Jo Co游戏场景中使用基于RPE-ICM、基于内在好奇心模块(ICM)、基于随机蒸馏网络(RND)以及传统的深度确定性策略梯度(DDPG)算法进行对比实验。结果表明,相较于传统DDPG、ICM以及RND,基于RPE-ICM的DDPG算法的平均性能在Hopper中分别提高了13.85%、13.34%和20.8%。