摘要

递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。通过引入启发式算法思想,对一种递阶强化学习方法进行改进,使得智能体在学习过程中融入了历史信息,提高了学习效率,解决了在庞大状态空间和动态变化环境中对智能体进行最优行为策略学习的问题。以扩展的信念、愿望和意图意识模型为基础,提出了一种具有主动性、自治性、反应性、社会性的自主机器人路径规划智能体体系结构,通过仿真实验,证明了路径规划智能体的可行性和有效性。

全文