摘要

针对目前自然场景中长文本检测效果不佳的问题,提出了一种基于残差网络及笔画宽度变换的自然场景文本检测算法。在EAST算法的基础上进行了改进,引入了残差结构加深网络深度,扩大了感受野,避免了梯度消失的问题,提升了网络的学习能力;并在损失函数中加入了预测框与真实文本框的中心点间距离作为惩罚项,有效区分了不同重叠方式的检测框,进一步提高了检测精度。同时在非极大值抑制阶段后增加了SWT(Stroke Width Transform,笔画宽度变换)阶段,对预测文本框进行扩展,依据规则判定是否存在漏检字符,补全了缺失的长文本信息。在ICDAR2015和MSRA-TD500数据集上进行了测试,将EAST算法的F值分别提高了3.7百分点和4.9百分点。表明该算法可以有效提高检测的准确度,并改善长文本的检测效果。