摘要

针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测。首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块建模,挖掘文本行与行之间的关系;最后,使用多目标进行联合优化训练网络。在BDD-SynText和RealText数据集上进行了大量实验,实验结果表明,所提出的SDPT在高混叠度的文字检测下取得了最优的效果,与PSENet等文本检测算法相比,在合成的混叠数据集上F1(IoU50)至少提高21.36个百分点,在真实数据集上F1(IoU50)至少提高21.14个百分点,验证了所提出方法对于性能改善的重要作用。

  • 单位
    智能信息处理与实时工业系统湖北省重点实验室; 武汉科技大学