摘要
文字识别技术在文档管理、图像理解、视觉导航等中具有重要应用。然而,自然场景中的文字通常排列任意、形状不一、字体多样,难以被检测和识别。提出了面向自然场景图像的三阶段文字识别框架,该框架包括文字检测、文字矫正和文字识别。首先,利用特征金字塔网络分割图像中的字符,基于双向长短期记忆网络获取字符间的亲和度,连接孤立字符构建单词行,文字检测率(F分数)高达91.97%。然后,通过多目标矫正网络矫正被检测文字,以应对场景图像文字的复杂形变,增强阅读性。最后,通过注意力序列识别网络按序输出预测结果,实现单词级识别,文字识别正确率达84.98%。
- 单位