在柔性生产车间的动态调度中,启发式调度方法因其响应速度快而得到广泛应用,但其规则繁杂,难以在复杂多变的动态生产调度环境中做出最优决策。为此,提出一种基于改进的深度强化学习算法的柔性作业车间动态调度方法,将车间动态调度问题建模为马尔科夫决策过程,定义一系列表征生产系统环境的状态特征值,在每个决策时间点利用改进的策略梯度方法实现启发式调度规则的智能动态选择。设计3组实验仿真表明,提出的方法相比于传统启发式算法具有优越性和泛化性,该研究可为大学的专业教学提供一个仿真实践平台。