不动点视角下的强化学习算法综述

陈兴国; 孙丁源昊; 杨光; 杨尚东; 高阳<sup>*</sup>

doi:10.11897/SP.J.1016.2023.01246

摘要

近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计最优解与可行解的构造问题;其次,根据Banach不动点定理和Lyapunov第二判定定理,总结了已有基于值函数强化学习算法的稳定性问题,包括基于表格、线性估计、非线性估计、非参估计等值函数的算法在同策略和异策略情况下的收敛性;然后,从不动点的偏差与方差控制角度,解读了多种提高算法准确性或收敛速度的改进思想;最后总结和展望了强化学习算法的改进方向.

单位
南京大学深圳研究院; 南京邮电大学; 南京大学; 计算机软件新技术国家重点实验室

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 04:38

不动点视角下的强化学习算法综述

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友