摘要

近年来,深度强化学习(deep reinforcement learning, DRL)已经在诸多序贯决策任务中取得瞩目成功,但当前,深度强化学习的成功很大程度依赖于海量的学习数据与计算资源,低劣的样本效率和策略通用性是制约其进一步发展的关键因素.元强化学习(meta-reinforcementlearning,Meta-RL)致力于以更小的样本量适应更广泛的任务,其研究有望缓解上述限制从而推进强化学习领域发展.以元强化学习工作的研究对象与适用场景为脉络,对元强化学习领域的研究进展进行了全面梳理:首先,对深度强化学习、元学习背景作基本介绍;然后,对元强化学习作形式化定义及常见的场景设置总结,并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展;最后,分析了元强化学习领域的研究挑战与发展前景.

全文