摘要

多技能项目调度存在组合爆炸的现象,其问题复杂度远超传统的单技能项目调度,启发式算法和元启发式算法在求解多技能项目调度问题时也各有缺陷.为此,根据项目调度的特点和强化学习的算法逻辑,设计了基于强化学习的多技能项目调度算法.首先,将多技能项目调度过程建模为符合马尔科夫性质的序贯决策过程,并依据决策过程设计了双智能体机制.而后,通过状态整合和行动分解,降低了价值函数的学习难度.最后,为进一步提高算法性能,针对资源的多技能特性,设计了技能归并法,显著降低了资源分配算法的时间复杂度.与启发式算法的对比实验显示,所设计的强化学习算法求解性能更高,与元启发式算法的对比实验表明,该算法稳定性更强,且求解速度更快.