摘要

场景文本识别旨在将自然图像中所包含的文本信息识别为计算机可处理的字符序列,其挑战性在于如何处理不规则分布形状的场景文本。目前的主流方法是将其解耦为文本校正与序列识别两个子任务,文本校正模块负责将不规则文本行特征扭曲为标准化的水平形式,然后送入后续的序列识别模块。由于缺乏必要的标注信息,目前大部分文本校正方法依赖于弱监督方式训练的空间变换网络,并且需要微妙的参数初始化策略和端到端的优化方法才能收敛。本文注意到场景文本通常满足一定的几何先验约束,提出一种在该约束下学习的光流网络,其生成的光流场可以用于文本校正,并在若干真实场景文本识别数据集上进行了相关实验。实验结果表明,基于本文方法的文本识别系统比传统基于STN网络的系统的准确率有所提升,这可以归因于本文所提出的基于光流变换的文本校正算法的有效性。