摘要
强化学习能够在动态复杂环境中实现自主学习,这使其在法律、医学、金融等领域有着广泛应用。但强化学习仍面临着全局状态空间不可观测、对奖励函数强依赖与因果关系不确定等诸多问题,导致其可解释性弱,严重影响其在相关领域的推广,会遭遇诸如难以判断决策是否违反社会法律道德的要求,是否准确及值得信任等的限制。为了进一步了解强化学习可解释性研究现状,从可解释模型、可解释策略、环境交互、可视化等方面展开讨论。基于此,对强化学习可解释性研究现状进行系统论述,对其可解释方法进行归类阐述,最后提出强化学习可解释性的未来发展方向。
- 单位