摘要

为了有效提高深度学习模型在实际应用场景中的泛化能力,近年来工业界和学术界对神经网络训练阶段所采用的加噪技巧给予了高度关注.当网络模型架构中的待求参数固定时,修正方程的思想可以被用来刻画随机训练策略下数据特征的传播过程,从而看出在恰当位置添加剪枝层后的残差网络等价于随机微分方程的数值离散格式.建立这两者间的对应关系使得我们可以将残差网络的随机训练过程与求解倒向柯尔莫哥洛夫方程的最优控制问题联系起来.该发现不仅使得人们可以从微分方程及其最优控制的角度来研究加噪技巧所带来的正则化效应,同时也为构建可解释性强且有效的随机训练方法提供了科学依据.本文也以二分类问题作为简例来对上述观点做进一步的阐述和说明.