摘要
基于深度学习的场景文本检测普遍缺少特征级的精细化,导致原本设计良好的模型不能被充分利用,提出将特征融合和特征金字塔注意力模块应用到场景文本检测。将基本特征提取网络(PixelLink算法)得到的4个特征映射层以采样后加权叠加的方式进行特征融合,并将结果送给特征金字塔注意力模块。特征融合使各层级的特征信息相结合,从而增加了特征映射层的信息量。采用注意力网络可以在增大感受野的同时不提高计算力,而空间金字塔结构可利用不同的网格尺度或不同的扩张率融合多尺度的特征信息。特征金字塔注意力模块包含精细化金字塔网络分支、非线性变换分支以及全局平均池化分支。实验结果表明,相较于PixelLink算法,该算法在ICDAR2015和ICDAR2013数据集上综合指标(F-measure, F)分别提升了2.91%和4.04%。
- 单位