摘要
近年来基于深度强化学习的机器学习技术突破性进展为智能博弈对抗提供了新的技术发展方向。针对智能对抗中异构多智能体强化学习算法训练收敛速度慢、训练效果差异大等问题,本文提出了一种先验知识驱动的多智能体强化学习博弈对抗算法PK-MADDPG,构建了双重Critic框架下的MADDPG模型。该模型使用了经验优先回放技术来优化先验知识提取,从而在博弈对抗训练中取得显著的效果。论文成果在MaCA异构多智能体博弈对抗全国竞赛中,将PK-MADDPG算法与经典规则算法的博弈对抗结果进行比较,验证了本文所提算法的有效性。
- 单位