摘要

模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家的决策模型。同样学习如何决策的强化学习往往只根据环境的滞后反馈进行学习。与之相比,模仿学习能从决策数据中获得更为直接的反馈。它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法。基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代。逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数学习策略。基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation L...