摘要
农村物流配送存在配送路径不合理、配送路径重复的现象,导致出现配送成本高、时效性差的问题。为节约配送里程、提高配送效率,提出一种基于强化学习的农村物流配送最优路径规划。以配送路径最短为目的,成本最小为约束条件,建立物流配送函数模型,通过奖惩函数与状态函数设计配送策略网络的学习环境。根据带有回滚基准、蒙特卡洛得出该网络的累计回报,结合策略梯度完成网络的训练,采用贪婪与采样全局搜索该策略动作的最优解,最终实现最优路径的规划。实验结果表明,所提方法能够实现最优路径的规划,有效降低物流成本,且最优解迭代次数小于60次。
-
单位邯郸学院; 河北工程大学