摘要

针对异构深度学习训练中任务调度效率低下的问题,提出了一种计算集群训练任务进度利润最大化的模型,该模型可以动态分配集群中多任务的计算单元数量.对每个模型进行预训练,以获得它们的进度曲线,并为每个模型建立关于处理速度的资源模型,建立了进度增量最大化模型,设计了贪婪算法用于分配集群中的资源.实验结果表明,本调度算法能减少任务完成时间.