摘要

本发明公开了一种基于网络带宽分配的分布式深度学习性能优化方法,其特点是采用网络带宽分配策略Nebula的方法,将集群的网络资源在作业训练过程中动态分配进行性能优化,具体包括:提交分布式深度学习作业预运行、获取分布式深度学习作业相关参数;收集运行节点相关特征参数等步骤。本发明与现有技术相比具有带宽资源得到合理利用,优化作业运行性能,大大提高了作业的平均完成时间,方法简便,进一步缓解了进程间的网络资源竞争,有效提升集群资源的利用率。