摘要
传统循环神经网络易发生梯度消失和网络退化问题.利用非饱和激活函数可以有效克服梯度消失的性质,同时借鉴卷积神经网络中的残差结构能够有效缓解网络退化的特性,在门控循环神经网络(Gated recurrent unit, GRU)的基础上提出了基于残差的门控循环单元(Residual-GRU, Re-GRU)来缓解梯度消失和网络退化问题. Re-GRU的改进主要包括两个方面:1)将原有GRU的候选隐状态的激活函数改为非饱和激活函数; 2)在GRU的候选隐状态表示中引入残差信息.对候选隐状态激活函数的改动不仅可以有效避免由饱和激活函数带来的梯度消失问题,同时也能够更好地引入残差信息,使网络对梯度变化更敏感,从而达到缓解网络退化的目的.进行了图像识别、构建语言模型和语音识别3类不同的测试实验,实验结果均表明, Re-GRU拥有比对比方法更高的检测性能,同时在运行速度方面优于Highway-GRU和长短期记忆单元.其中,在语言模型预测任务中的Penn Treebank数据集上取得了23.88的困惑度,相比有记录的最低困惑度,该方法的困惑度降低了一半.