摘要
在深度学习领域中,模型的训练往往非常耗时,尤其是当模型较复杂时,分布式训练则是解决这个问题的一个主要方式。以往的案例中,用分布式训练神经网络能够得到非常好的加速效果,是因为采用了异步梯度下降法,但是这样会导致准确率下降。也有用同步梯度下降法来提升训练的准确率,但由于实际分布式的异构集群中各个计算节点的算力差距,会出现计算节点空闲等待的现象,使得模型的训练耗时十分不理想。采取改进同步梯度下降方法,通过设计新的样本分配机制,充分利用各个工作节点来加速模型训练。实验结果证明:所采取的方法在不降低准确率的情况下能够加快模型的训练速度。
- 单位