深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出一种基于群体目标状态的奖励函数。针对这种奖励函数下,奖励值稀疏,影响学习速率,将基于优先级的经验重放方法扩展至多智能体领域,提高样本利用率,挖掘训练潜能。最后在合作导航场景中进行仿真实验,验证方法的有效性。