摘要

函数逼近法(functionapproximation)是强化学习领域中的一个研究热点,可以有效处理强化学习中大规模、连续状态和动作空间的问题。基于梯度下降(gradientdescent)的函数逼近方法虽然是强化学习中使用最广泛的方法之一,但该算法对步长参数的要求较高,取值不当易产生收敛速度慢、收敛不稳定甚至发散的情况。针对这类问题,通过围绕基于函数逼近的TD(TD,temporal difference)算法,在最小二乘方法和梯度下降方法的基础上对权重的更新方法进行了改进,利用最小二乘方法处理值函数求解权重值,并结合时序差分和梯度下降的思想求出权重之间的误差,并利用该误差直接更新权重,从而提出一种权重梯度下降(WGD,weight gradient descent)方法。该方法以全新的方式更新权重,有效降低算法对计算资源的消耗,并且可以有效地对其他基于梯度下降的函数逼近算法进行改进,广泛应用于诸多基于梯度下降的强化学习算法。实验表明,WGD方法能够在更广泛的空间中调整参数,可以有效降低算法发散的可能性,在保证算法拥有良好收敛效果的同时,提高算法的收敛速度。

  • 单位
    苏州高博软件技术职业学院; 苏州大学; 苏州大学应用技术学院

全文