基于Transformer解码的端到端场景文本检测与识别算法

郑金志; 汲如意; 张立波; 赵琛

doi:10.11959/j.issn.1000-436x.2023070

摘要

针对任意形状的场景文本检测与识别，提出一种新的端到端场景文本检测与识别算法。首先，引入了文本感知模块基于分割思想的检测分支从卷积网络提取的视觉特征中完成场景文本的检测；然后，由基于Transformer视觉模块和Transformer语言模块组成的识别分支对检测结果进行文本特征的编码；最后，由识别分支中的融合门融合编码的文本特征，输出场景文本。在Total-Text、ICDAR2013和ICDAR2015基准数据集上进行的实验结果表明，所提算法在召回率、准确率和F值上均表现出了优秀的性能，且时间效率具有一定的优势。

单位
中国科学院大学; 计算机科学国家重点实验室; 中国科学院软件研究所

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-03 18:32

基于Transformer解码的端到端场景文本检测与识别算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友