摘要
随着GPU硬件设施的广泛应用,越来越多的分布式机器学习应用程序开始使用CPU-GPU混合集群资源来提高算法的效率。但是,现有的分布式机器学习调度框架要么只考虑CPU资源上的任务调度,要么只考虑GPU资源上的任务调度,即使综合考虑CPU与GPU资源的不同,也很难提高整个系统的资源使用效率,即使用CPU-GPU集群进行分布式机器学习作业面临的关键挑战是如何高效地调度作业中的任务。在对现有的方法进行分析后,提出了一种基于不均匀数据分片的策略,利用线性规划的原理,使得CPU任务时间与GPU任务时间尽可能接近,从而减少分布式机器学习作业的整体执行时间。介绍了CPU-GPU混合计算框架的调度结构,这种调度结构针对CPU计算能力与GPU计算能力的不同特点,将数据分割成大小不等的数据分片以适应于CPU和GPU计算资源,给出了CPU-GPU混合资源下的任务调度方法,对该方法进行K-Means算法验证。使用CPU-GPU混合资源计算框架,K-Means性能平均提高1.5倍,且随着GPU数量的增加,K-Means性能能够显著提升。
- 单位