摘要

针对作业车间中AGV和机器联合调度问题,以完工时间最小化为目标,提出了一种基于卷积神经网络和深度强化学习的集成算法框架。首先,对含AGV的作业车间调度析取图进行分析,将问题转化为一个序列决策问题,并将其表述为马尔可夫决策过程。接着针对问题的求解特点,设计了一种基于析取图的空间状态与5个直接状态特征;在动作空间的设置上,设计了包含工序选择和AGV指派的二维动作空间;并根据作业车间中加工时间与有效运输时间为定值这一特点构造了奖励函数来引导智能体进行学习。最后,设计了针对二维动作空间的2D-PPO算法进行训练和学习,以快速响应AGV和机器的联合调度决策。通过实例验证,基于2D-PPO算法的调度算法具有较好的学习性能和可扩展性效果。

全文