摘要

本发明涉及一种基于归纳逻辑编程的多智能体强化学习方法,包括:步骤1:构建多智能体系统;步骤2:利用可微归纳逻辑编程将智能体获取的环境局部观察信息和接收的通信信息编码为一阶谓词表示;步骤3:对一阶谓词表示进行推理解码得到动作概率;步骤4:智能体根据动作概率选择动作并与环境交互;步骤5:利用优势函数对智能体选择的动作进行评估,并根据评估结果进行优化更新,直至所有智能体的策略收敛。本发明的基于归纳逻辑编程的多智能体强化学习方法在智能体的合作任务中拥有优越的表现,不仅可以学习接近最优的策略,并且比传统的强化学习方法具有更好的可解释性。