基于Adam局部优化的分布式近似牛顿深度学习模型训练

毕常遥; 袁晓彤

摘要

分布式学习是减轻现代机器学习系统中不断增加的数据和模型规模压力的有效工具之一。DANE算法是一种近似牛顿方法,已被广泛应用于通信高效的分布式机器学习。其具有收敛速度快且无须计算Hessian矩阵逆的优点,从而可以在高维情况下显著减少通信和计算开销。为了进一步提高计算效率,就需要研究如何加快DANE的局部优化。选择使用最流行的自适应梯度优化算法Adam取代常用的随机梯度下降法来求解DANE的局部单机子优化问题是一种可行的方法。实验表明,基于Adam的优化在收敛速度上可以明显快于原始的基于SGD的实现,且几乎不会牺牲模型泛化性能。

单位
南京信息工程大学; 自动化学院

收藏分享被引浏览

更新时间：2024-04-18 01:15

基于Adam局部优化的分布式近似牛顿深度学习模型训练

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友