摘要
学习率的大小影响着模型的训练速度和收敛精度,为了解决常用学习率AdaGrad的历史梯度干扰、AdaDec中幂指函数相关性不强的问题,从学习率衰减方式出发,提出一种基于衰减时效性的学习率改进方法(AdaRecur)。此学习率改进有两方面:1)通过设置衰减速率ρ减小历史梯度作用并结合当前梯度共同调整学习率; 2)根据当前网络梯度的变化,将初始学习率替换为上轮训练中的学习率,以递推的方式调整学习率大小。目标位姿估计中LineMod数据集测试结果表明,在相同训练次数的情况下,AdaRecur比AdaGrad和AdaDec的平移、角度误差小,其中角度误差降低了2.378%,平移误差降低了2.216%,位姿估计的效果更加完美。
-
单位中国人民解放军陆军工程大学