摘要
文中介绍了基于Kubernetes的AI调度引擎平台的设计与实现,针对当前人工智能调度系统中存在的服务配置复杂,集群中各节点计算资源利用率不均衡以及系统运维成本高等问题,本文提出了基于Kubernetes实现容器调度和服务管理的解决方案.结合AI调度引擎平台的需求,从功能实现和平台架构等方面设计该平台的各个模块.同时,针对Kubernetes无法感知GPU资源的问题,引入device plugin收集集群中每个节点上的GPU信息并上报给调度器.此外,针对Kubernetes调度策略中优选算法只考虑节点本身的资源使用率和均衡度,未考虑不同类型的应用对节点资源的需求差异,提出了基于皮尔逊相关系数(Pearson correlation coefficient, PCC)的优选算法,通过计算容器资源需求量与节点资源使用率的互补度来决定Pod的调度,从而保证调度完成后各节点的资源均衡性.
-
单位西安电子科技大学; 厦门市美亚柏科信息股份有限公司