摘要

本发明公开了一种基于博弈强化学习的多式联运动态路径规划方法;所述方法包括以下步骤:S1订单处理模块接收用户的订单信息;S2博弈模块根据传入的订单信息计算博弈影响因子;S3并行强化学习模块根据传入的订单信息构建强化学习环境中的状态转移模型,根据所需目标构建强化学习中的奖励,学习单个目标下的Q网络;S4结合博弈因子和单个目标下Q网络进行多目标下的Q表的计算,生成订单初始策略;S5执行订单,根据订单执行情况调整博弈影响因子,调整多目标下的Q网络,直到订单执行完成。