基于注意力机制编码器-解码器的手写数学公式识别模型

陈路; 陈道喜; 陆一鸣; 陆卫忠

摘要

针对现有手写数学公式识别(HMER)方法在卷积神经网络(CNN)多次池化后，导致图像分辨率降低，特征信息丢失，从而引起解析错误的问题，提出基于注意力机制编码器-解码器的HMER模型。首先，采用稠密卷积神经网络(DenseNet)作为编码器，使用稠密连接加强特征提取，促进梯度传播，缓解梯度消失；其次，采用门控循环单元(GRU)作为解码器，并引入注意力机制，将注意力分配到图像的不同区域，准确地实现符号识别和结构分析；最后，对手写数学公式图像进行编码，将编码结果解码为LaTeX序列。采用在线手写数学公式识别竞赛(CROHME)数据集对所提出模型进行实验验证，所提出模型的识别率提升到40.39%，在允许三个级别的误差范围内，识别率分别提升到52.74%、58.82%和62.98%。所提出模型在识别率上相较于双向长短期记忆网络(BLSTM)模型提升了3.17个百分点，在允许三个级别的误差范围内，识别率分别提升了8.52个百分点、11.56个百分点和12.78个百分点。实验结果表明，所提出模型能够准确地解析手写数学公式图像，生成LaTeX序列，提升识别率。

单位
苏州科技大学; 苏州科技大学天平学院

收藏分享被引浏览

更新时间：2023-02-11 23:10

基于注意力机制编码器-解码器的手写数学公式识别模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友