摘要
分布式随机梯度下降法被广泛应用于大规模机器学习,同步随机梯度下降法和异步随机梯度下降法是两个典型的分布式随机梯度下降法.在同步随机梯度下降法中,所有的工作节点都需要互相等待,导致训练速度受限于最慢的工作节点.在异步随机梯度下降法中,延迟的梯度会造成最终训练得到的模型很差.为此提出一种新的分布式随机梯度下降法:分组随机梯度下降法.该方法将通信和计算性能相近的工作节点划入同一组,这样就会将工作节点划分成若干的组.在同一组的工作节点以同步的方式工作,不同的组之间以异步的方式工作.由于组内的工作节点只需互相等待很短的时间,该方法可以缓解同步随机梯度下降法的掉队问题.由于组的数目远小于工作节点的数目,该方法梯度的延迟也很小.理论分析证明了该方法的收敛性.仿真结果表明,在异质集群中该方法的收敛速度比同步随机梯度下降法和异步随机梯度下降法更快.
- 单位