摘要

在线强化学习中,值函数的逼近通常采用随机梯度下降(Stochastic Gradient Descent,SGD)方法。在每个时间步,SGD方法使用强化学习算法获取的随机样本,计算损失函数的局部梯度,单次模型参数更新的计算量小,适合在线学习。但是,由于目标函数不同维度存在梯度差异,SGD方法会产生优化震荡,导致迭代次数增多,收敛速度变慢甚至不能收敛。提出一种带自适应学习率的综合随机梯度下降方法(Adaptive Learning Rate on Integrated Stochastic Gradient Descent, ALRI-SGD),对SGD做了两方面改进:1)在基于参数预测的基础上...