摘要
强化学习在序列决策问题上取得了巨大的成功。随着强化学习的飞速发展,迁移学习成为了一种重要的可以通过利用和转移外部知识来加速强化学习的技术。策略迁移是一种外部知识来自教师策略的迁移强化学习方法。现有的策略转移方法要么通过测量源任务与目标任务之间的相似性来转移知识,要么通过估计在源策略在目标任务上的性能来选择最佳源策略。但是,性能估计有时可能不可靠, 这可能会导致负迁移。针对这种问题,提出了一种新的策略转移方法,称为随机集成策略迁移(Stochastic Ensemble Policy Transfer, SEPT)。SEPT不是在源策略库中选择一个策略,而是利用源策略集成出教师策略来进行迁移。SEPT把策略迁移转变为选项学习问题以便获得终止概率,用终止概率计算出源策略的概率权重,根据概率权重从策略库中集成出教师策略。然后,通过策略蒸馏的方式从教师策略进行知识迁移。实验结果表明SEPT可以有效地加速强化学习训练,并且在离散和连续空间上都能胜过其他最佳的策略迁移方法。
-
单位计算机软件新技术国家重点实验室; 南京大学