摘要
尽管深度强化学习在单智能体环境中取得了一定的成果,但在多智能体系统中传统方法仍面临着一些挑战。其中非平稳性问题是多智能体环境中主要的挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致的无终止循环。为解决多智能体环境的非平稳性问题,研究了中心式训练分布式执行架构(CTDE)在强化学习中的实现方法,并分别从智能体间通信和智能体探索的两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制改进QMIX算法。通过星际争霸Ⅱ(SC2LE)环境中的微操场景加以验证。实验结果表明,与QMIX算法相比,所提算法性能有所提升,并且能够得到收敛速度更快的训练模型。
- 单位