面向混叠文字检测的单向投影Transformer算法

冯智达; 陈黎

摘要

针对基于分割的文字检测方法在混叠文字场景下性能下降的问题，提出了单向投影Transformer(SDPT)用于混叠文本检测。首先，使用深度残差网络（ResNet）和特征金字塔网络（FPN）提取并融合多尺度特征；然后，利用水平投影将特征图投影成向量序列，并送入Transformer模块建模，挖掘文本行与行之间的关系；最后，使用多目标进行联合优化训练网络。在BDD-SynText和RealText数据集上进行了大量实验，实验结果表明，所提出的SDPT在高混叠度的文字检测下取得了最优的效果，与PSENet等文本检测算法相比，在合成的混叠数据集上F1(IoU50)至少提高21.36个百分点，在真实数据集上F1(IoU50)至少提高21.14个百分点，验证了所提出方法对于性能改善的重要作用。

单位
智能信息处理与实时工业系统湖北省重点实验室; 武汉科技大学

收藏分享被引浏览

更新时间：2023-03-24 13:08

面向混叠文字检测的单向投影Transformer算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友