摘要

学习率(learning rate, LR)是深度神经网络(deep neural networks, DNNs)能够进行有效训练的重要超参数.然而,学习率的调整在DNNs训练过程中仍存在诸多困难与挑战,即使以恒定的学习率选择为目标,为训练DNNs选择一个最优的恒定初始学习率也非易事.动态学习率涉及到训练过程的不同阶段,需对学习率进行多步调整以达到高精确度和快速收敛的目的:调整过程中学习率过小可能会导致模型收敛缓慢或陷入局部最优值;而学习率过大则会阻碍收敛,造成震荡发散.对此,综述了近年来基于深度学习算法的学习率研究进展,并对分段衰减学习率、平滑衰减学习率、循环学习率、具有热启动的学习率4种类型的学习率簇在几个常见数据集上的性能表现进行测试分析和对比研究,包括收敛速度、鲁棒性和均值方差等.最后总结全文,并对该领域仍存在的问题以及未来的研究趋势进行展望.

全文