安全约束下合作型多智能体TD3算法

作者:郝禹哲; 王振雷*
来源:计算机应用研究, 2023, 40(06): 1692-1701.
DOI:10.19734/j.issn.1001-3695.2022.08.0549

摘要

合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3 (multi-agent constrainted twin delayed deep deterministic policy gradient)。首先,结合注意力机制对各个智能体采取的动作与决策过程约束条件进行了协调。然后利用拉格朗日乘子构造了修正的代价函数。进而为保证算法的收敛性,保证每一个智能体能够满足预先设定的约束条件,设计了不同时间尺度分学习策略:在短时间尺度上执行Actor-Critic网络的梯度下降,在长时间尺度上对拉格朗日参数进行迭代。最后在异质和同质的合作型多智能体环境下进行实验。实验结果表明,与其他算法相比,提出的MACTD3算法始终能够获得最小的惩罚成本;通过数量的扩展性实验表明了MACTD3在不同数量智能体的情况下仍然能够满足约束条件,证明了算法的有效性与扩展性。

全文