基于注意力机制编码器-解码器的手写数学公式识别模型

陈路; 陈道喜; 陆一鸣; 陆卫忠<sup>*</sup>

摘要

针对现有的手写数学公式识别（HMER）方法经过卷积神经网络（CNN）多次池化后，图像分辨率降低、特征信息丢失，从而引起解析错误的问题，提出基于注意力机制编码器-解码器的HMER模型。首先，采用稠密卷积网络（DenseNet）作为编码器，使用稠密连接加强特征提取，促进梯度传播，并缓解梯度消失；其次，采用门控循环单元（GRU）作为解码器，并引入注意力机制，将注意力分配到图像的不同区域，从而准确地实现符号识别和结构分析；最后，对手写数学公式图像进行编码，将编码结果解码为LaTeX序列。在在线手写数学公式识别竞赛（CROHME）数据集上的实验结果表明，所提模型的识别率提升到40.39%，而在3个级别的允许误差范围内，识别率分别提升到52.74%、58.82%和62.98%。相较于双向长短期记忆（BLSTM）网络模型，所提模型的识别率提高了3.17个百分点；而在3个级别的允许误差范围内，识别率分别提高了8.52、11.56和12.78个百分点。可见，所提模型能够准确地解析手写数学公式图像，生成LaTeX序列，提升识别率。

单位
苏州科技大学天平学院; 苏州科技大学

收藏分享被引浏览

更新时间：2024-03-18 21:59

基于注意力机制编码器-解码器的手写数学公式识别模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友