Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法

陈亮; 梁宸; 张景异; 刘韵婷<sup>*</sup>

doi:10.13195/j.kzyjc.2019.0787

摘要

现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比, Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值.

单位
沈阳理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-17 18:20

Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友