摘要
针对智能体通信时受外界信息轰炸、协作式多智能体在训练初期的无效探索等问题,提出一种改进的UA-QMIX算法。通过价值函数分解理论和集中式学习分布式执行作为基本条件,在智能体效用网络中加入注意力机制,增强智能体之间对彼此影响力的关注。采用传统的ε-贪婪策略来平衡探索与利用,改进ε-贪婪策略为理性ε-贪婪策略,减少盲目探索。仿真结果表明,所提算法有效降低信息过载以及训练初期的无效探索,且在星际争霸中的收敛速度和平均胜率都达到了最优。
-
单位自动化学院; 南京信息工程大学