摘要

强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,作为一类机器学习算法,强化学习也面临着机器学习领域的公共难题,即难以被人理解.缺乏可解释性限制了强化学习在安全敏感领域中的应用,如医疗、驾驶等,并导致强化学习在环境仿真、任务泛化等问题中缺乏普遍适用的解决方案.为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(explainable reinforcement learning,XRL)的研究.然而,学术界对XRL尚缺乏一致认识.因此,探索XRL的基础性问题,并对现有工作进行综述.具体而言,首先探讨父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分解释的直观性;然后,根据强化学习本身的特征,定义XRL的3个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行系统地归类,并对XRL的最新进展进行综述;最后,展望XRL领域的潜在研究方向.

  • 单位
    南京大学; 计算机软件新技术国家重点实验室

全文