基于一维卷积循环神经网络的深度强化学习算法

作者:畅鑫; 李艳斌; 田淼; 陈苏逸; 杜宇峰; 赵研
来源:计算机测量与控制, 2022, 30(01): 258-265.
DOI:10.16526/j.cnki.11-4762/tp.2022.01.040

摘要

针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。