研究具有尺寸差异工件随机到达系统的情况下,单机批处理机的优化调度问题,首先以加工某批工件为决策变量,无穷时段内工件处理率最大为优化目标,建立了系统优化模型,其次针对系统特点设计了两类启发式规则,并由此提出一种基于Q学习的启发式选择算法,用于随机环境下调度策略的自适应选择。最后通过实验表明,所提算法相比于传统Q学习在优化能力和计算效率上有更好的性能,并且问题规模越大效果越明显。