摘要

AdaGrad将自适应矩阵应用到随机梯度下降法中,大大降低了工程上超参数搜索的高昂代价。AdaGrad不仅提供了优化方法自适应的研究思路,而且引领了深度学习优化方法新的研究方向,人们越来越多地考虑将自适应策略加入到优化算法的设计中去。对偶平均方法能够克服随机梯度下降法迭代后期收敛缓慢的固有弊端,并相较而言具有较高的收敛稳定性和灵活的步长策略,但自适应的对偶平均方法仍是空白。论文通过分析随机梯度下降法和对偶平均方法性能差异的本质原因,在保留对偶平均方法优势的基础上,将AdaGrad的自适应矩阵融入到方法框架中去,形成一种自适应的对偶平均方法:AdaDA,并通过一般凸函数优化分类实验验证算法的可行性与预期效果。