摘要
针对经典深度Q网络(Deep Q-Network,DQN)算法在训练初期收敛速度慢的问题,文中提出一种新的基于函数逼近协同更新的DQN算法。该算法在经典的DQN算法的基础上融合了线性函数方法,在训练的初期利用线性函数逼近器来代替神经网络中的行为值函数网络,并提出一种离策略值函数更新规则,与DQN协同更新值函数参数,加快神经网络的参数优化,进而加快算法的收敛速度。将改进后的算法与DQN算法用于CartPole和Mountain Car问题,实验结果表明,改进后的算法具有更快的收敛速度。
- 单位