摘要
针对以最小化工位过载时间为目标的航天产品混流装配线投产排序问题,提出了一种基于改进Actor-Critic的深度强化学习算法。在Actor部分设计了两种排序策略学习机制,综合基于Critic网络的on-policy和基于较好实例的off-policy,提升算法的学习和搜索效率,生成合理产品投产序列;在Critic部分,分别根据时序差分误差以及较好实例的时序差分序列指导排序策略更新。在算例验证中,对比分析了改进Actor-Critic的深度强化学习算法与传统Actor-Critic算法、Deep Q-Network算法和遗传算法的求解得到了更好的排序结果,验证了改进Actor-Critic的深度强化学习算法有效性。
- 单位