多智能体深度确定性策略梯度算法研究与改进

劳天成; 刘义; 范文慧

doi:10.13568/j.cnki.651094.651316.2023.05.08.0001

摘要

针对多智能体深度确定性策略梯度算法（MADDPG）在某些场景下，尤其是在部分可观察环境与稀疏奖励条件下，不一定能学习到最优策略的问题，采用观察叠加法和在深度网络中加入长短期记忆网络（Long Short-Term Memory, LSTM）层的方法对MADDPG算法进行了改进，通过含遮蔽区的捕食者-猎物场景验证了改进的算法在智能体决策上的有效性；引入后验经验回放（Hindsight Experience Replay, HER）方法对MADDPG算法进行了改进，通过合作通讯场景和合作导航场景的对比实验验证了改进的算法能够使智能体获得的高价值经验大大增加，可以提高MADDPG算法收敛速度，有助于智能体学习到最优策略．

单位
清华大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-15 15:50

多智能体深度确定性策略梯度算法研究与改进

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友