深度强化学习立足于解决环境交互问题,实现智能体的连续序列决策。传统强化学习算法基于马尔科夫决策过程,未来的状态仅与当前的状态有关,忽略了序列决策过程中记忆对当前决策的重要影响。此外,奖励的折扣系数为固定值,难以描述不同训练阶段当前奖励值与未来奖励期望对当前决策的动态影响。通过结合深度Q网络和循环记忆网络的神经网络模型,将序列决策的长期记忆加入决策过程,同时设置动态折扣系数,对不同训练阶段的深度Q网络模型赋予适当的折扣系数,从而加速了深度Q网络模型收敛并提高了其性能。