摘要

本文提出了一种基于深度学习的端到端PMER方法TrCPMER(Transformer-CNNPMER),该方法融合Transformer和CNN的特点,首先使用CNN提取图像特征并生成特征图,然后使用Transformer编码器对特征图进行编码,最后使用标准的Transformer解码器生成LaTeX字符序列。该TrCPMER方法简单且有效,不仅可以捕获图像的局部特征和全局特征,而且提升了模型的训练效率和识别准确率。与现有的方法的对比实验结果表明,我们的方法在识别性能的评价指标BLEU、Edit Distance和Match上分别达到了90.40%、96.18%和86.56%,相应提升了3.04%、9.79%和11.75%。