摘要
针对现有手写数学公式识别(HMER)方法在卷积神经网络(CNN)多次池化后,导致图像分辨率降低,特征信息丢失,从而引起解析错误的问题,提出基于注意力机制编码器-解码器的HMER模型。首先,采用稠密卷积神经网络(DenseNet)作为编码器,使用稠密连接加强特征提取,促进梯度传播,缓解梯度消失;其次,采用门控循环单元(GRU)作为解码器,并引入注意力机制,将注意力分配到图像的不同区域,准确地实现符号识别和结构分析;最后,对手写数学公式图像进行编码,将编码结果解码为LaTeX序列。采用在线手写数学公式识别竞赛(CROHME)数据集对所提出模型进行实验验证,所提出模型的识别率提升到40.39%,在允许三个级别的误差范围内,识别率分别提升到52.74%、58.82%和62.98%。所提出模型在识别率上相较于双向长短期记忆网络(BLSTM)模型提升了3.17个百分点,在允许三个级别的误差范围内,识别率分别提升了8.52个百分点、11.56个百分点和12.78个百分点。实验结果表明,所提出模型能够准确地解析手写数学公式图像,生成LaTeX序列,提升识别率。
-
单位苏州科技大学; 苏州科技大学天平学院