摘要

分布式学习是减轻现代机器学习系统中不断增加的数据和模型规模压力的有效工具之一。DANE算法是一种近似牛顿方法,已被广泛应用于通信高效的分布式机器学习。其具有收敛速度快且无须计算Hessian矩阵逆的优点,从而可以在高维情况下显著减少通信和计算开销。为了进一步提高计算效率,就需要研究如何加快DANE的局部优化。选择使用最流行的自适应梯度优化算法Adam取代常用的随机梯度下降法来求解DANE的局部单机子优化问题是一种可行的方法。实验表明,基于Adam的优化在收敛速度上可以明显快于原始的基于SGD的实现,且几乎不会牺牲模型泛化性能。