摘要

针对自然场景文本检测中由于文本实例尺度多样、文本内部字符空隙大以及形状不规则造成的检测难题,提出一种面向自然场景的不规则文本检测方法。以稀疏区域卷积神经网络(Sparse R-CNN)作为基础检测框架,首先,在特征提取阶段使用特征金字塔网络(FPN)将不同阶段特征进行融合得到多尺度特征金字塔,提取更深层次、更多尺度的文本特征,使得网络能够检测各种尺度的文本;然后,引入文本内协同学习(Intra-CL)模块,通过多种感受野的卷积级联组合协同采样文本实例的字符区域和空隙区域的特征,完整地表示文本实例的特征,来缓解文本断裂检测问题;最后,引入动态掩码头(DynMH),通过与检测头的交互,充分学习到不同层级的文本特征,并对文本区域进行实例分割,生成精细的文本轮廓,实现任意形状的文本检测。在标准数据集ICDAR2015、TotalText和CTW1500上对模型进行评估,实验结果表明,在ICDAR2015上该方法的文本检测的综合指标F值相较于TextSnake提升了2.3个百分点,在TotalText上比SegLink++提升了2.3个百分点,在CTW1500上比TextField提升了1.2个百分点。可视化结果表明,该方法能够准确地定位文本区域,更好地分割文本边界。

  • 单位
    武汉大学; 测绘遥感信息工程国家重点实验室