摘要
在以内在动机为导向的探索类强化学习中,通常根据智能体对状态的熟悉程度产生内在奖励。现有的大部分方法在整个训练周期近似度量对状态的熟悉程度。然而,合适的近似度量方法难以获得,且这种长期累计度量的方式没有重视状态在其所处episode中的作用。Anchor方法用“锚”代替分层强化学习中的子目标,鼓励智能体以远离“锚”的方式进行探索。受此启发,根据当前状态与同一episode中历史状态之间的距离设计了一个由两部分组成的内在奖励函数。第一部分将当前episode中部分历史状态组成的集合作为区域,周期性更新区域为最近访问到的状态集合,根据当前状态与区域的最小距离给予智能体内在奖励,从而使智能体远离当前最近访问过的旧区域。第二部分将当前状态的连续前驱状态作为窗口,规定窗口大小,根据窗口范围内以当前状态为终点的最短回路长度给予内在奖励,从而防止智能体走回路。该方法避免了对状态熟悉程度的度量,同时以一个episode为周期对环境进行探索。在经典的奖励稀疏环境MiniGrid的8个任务中的实验结果表明,该方法有效提升了智能体的探索能力。与近几年一些较新的同类方法相比,该方法在4个任务中能更快的探索到外在奖励,且很快收敛;在2个任务中的表现与最优baseline并列;在2个任务中探索到外在奖励的速度仅次于最优baseline。
- 单位