摘要

针对情景记忆算法中记忆池M当中的样本利用率低的问题,文中提出一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习方法EMVD,在情景记忆部分将时间差分误差平方的大小作为依据来更新记忆池M,使记忆池M中一直保留对学习效果提升最重要的情景记忆样本,并将情景记忆算法与神经网络结合,提高了算法的收敛速度。为了将该方法应用于机器人协作运输任务,设定机器人和运输目标的位置为状态,并且专门设计了回报函数。仿真结果表明EMVD算法可以有效解决机器人协作运输任务。

全文