分布式CNN中基于参数优先级的细粒度调度算法

作者:姜珊; 程志超; 曾荣飞; 黄敏; 王兴伟*
来源:广州大学学报(自然科学版), 2022, 21(01): 18-26.
DOI:10.3969/j.issn.1671-4229.2022.01.003

摘要

随着卷积神经网络模型日益复杂,训练数据类型更加丰富,数据量急速增长,单一机器已经无法满足模型训练的需求,分布式CNN成为新的解决方法。在参数服务器架构下,分布式CNN模型训练会产生大量的通信数据,可能会在每次迭代后产生突发流量,从而造成网络阻塞。在TensorFlow这种用图来表示计算的平台中,节点之间接收参数的顺序是随机的。由于数据流模型可能有多个可行的遍历,为了避免由于参数未接收完毕而造成的计算阻塞,尽量缩短迭代延迟,文章设计了基于计算图和参数优先级的细粒度调度机制,提出一种启发式算法,实现对计算图中所有节点强制执行最优顺序,通过改善通信和计算的重叠,实现细粒度的参数调度,并对VGG16和ResNet32进行测试对比。实验结果表明,使用细粒度的参数调度算法能够使迭代时间缩短7%~22%左右,从而缓解网络瓶颈,提高分布式CNN模型训练性能。

全文