深度学习容器云平台下的GPU共享调度系统

王壮; 王平辉<sup>*</sup>; 王彬丞; 武文博; 王斌; 丛鹏宇

摘要

近年来，容器由于具有轻量级以及高可扩展性，逐渐替代了虚拟机，被广泛应用于深度学习云平台中。但目前深度学习云平台在GPU资源管理上依然存在着不足，主要表现为由于容器编排技术的限制，多个容器无法共享使用GPU资源，而对于一些小规模模型的训练任务和推理任务，单个任务并不能充分利用整张GPU卡的计算资源。当前的独占模式会导致昂贵的GPU资源的浪费，降低资源效率和服务可用性。针对这一问题，提出了一种GPU共享调度系统。一方面，基于Kubernetes的Operator机制对现有集群功能进行扩展，实现了多个Pod共享使用GPU资源，同时设计了一种代理机制保证了与原生Kubernetes的兼容性。另一方面，基于GPU时间片与抢占机制，实现了GPU资源的动态管理与调度，在多个任务之间进行细粒度的协调，并减少了任务干扰。实验结果表明，与原生Kubernetes调度系统相比，该系统能够将一组深度学习训练任务的完成时间平均减少约20%,使得集群GPU资源利用率平均提升约10%。在共享使用GPU时高优先级任务性能相较于独占GPU损耗不到5%,同时能够使得低优先级任务以20%的性能运行在同一张GPU上。

单位
中国移动通信有限公司研究院; 西安交通大学

收藏分享被引浏览

更新时间：2024-03-18 17:37

深度学习容器云平台下的GPU共享调度系统

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友