摘要
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景。由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战。针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network,MPLAN)的自然场景文本识别方法。首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像。其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度。此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置。在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能。
- 单位