摘要
如何在受限时间内满足深度学习模型的训练精度需求并最小化资源成本是分布式深度学习系统面临的一大挑战.资源和批尺寸超参数配置是优化模型训练精度及资源成本的主要方法.既有工作分别从计算效率和训练精度的角度,对资源及批尺寸超参数进行独立配置.然而,两类配置对于模型训练精度及资源成本的影响具有复杂的依赖关系,既有独立配置方法难以同时达到满足模型训练精度需求及资源成本最小化的目标.针对上述问题,本文提出分布式深度学习系统资源-批尺寸协同优化配置方法.该方法首先依据资源配置和批尺寸超参数配置与模型训练时间和训练精度间的单调函数关系,选取保序回归理论工具,分别建立模型单轮完整训练时间和训练最终精度预测模型;然后协同使用上述模型,以资源成本最小化为目标,求解满足模型训练精度需求的资源和批尺寸优化配置解.本文基于典型分布式深度学习系统TensorFlow对所提出方法进行性能评测.实验结果表明,与既有基于自动化的资源或批尺寸独立配置方法相比,本文提出的协同配置方法最大节约资源成本26.89%.
- 单位