基于一维卷积循环神经网络的深度强化学习算法

畅鑫; 李艳斌; 田淼; 陈苏逸; 杜宇峰; 赵研

doi:10.16526/j.cnki.11-4762/tp.2022.01.040

摘要

针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。

单位
中国电子科技集团公司第五十四研究所; 电子科技大学

全文

访问全文

收藏分享被引(14) 浏览

更新时间：2024-03-19 13:45

基于一维卷积循环神经网络的深度强化学习算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友