摘要
本发明公开了一种基于变分辨率强化学习的多AMR智能调度优化方法,涉及智能调度技术领域,对调度环境建立地图,对地图中不同物品赋予不同像素值,基于四叉树算法进行地图分割,获得变分辨率地图;构建用于多AMR路径规划的决策模型,决策模型包括状态、动作、奖励、状态转移概率;所述状态是指位置,用地图块表示位置;根据Q-learning算法和决策模型进行路径规划,控制多AMR在变分辨率地图上到达目标位置。本发明解决调度环境地图较大时的强化学习空间信息过多导致的维数灾难问题,提升传统强化学习的训练效率。
-
单位中国电子科技集团公司第二研究所; 合肥工业大学