摘要

本发明提供一种基于多智能体协作系统的深度强化学习方法和装置,涉及人工智能技术领域,所述方法包括:在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,基于当前奖惩数据优化深度强化学习网络,重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;通过多次深度强化学习更新协作图的当前分配调整动作,而不更新智能体的实际动作,以简化深度强化学习的步骤,实现在深度强化学习奖励稀疏的情况下,快速地进行多次深度强化学习积累更多的奖励,从而提高深度强化学习网络的训练效率以及收敛速度慢。