摘要

近年来,随着深度学习的发展,在自然街景下的文本检测取得了巨大的进步,但在多方向和弯曲文本及对比度低的文本检测中的效果仍不理想。因此,针对弯曲文本和对比度低的文本的检测问题,提出了一种融合多尺度模块的文本检测方法,并通过检测效果的提升,提高端到端文本识别的识别效果。针对RFB(Receptive Field Block)模块在下采样后局部信息丢失的问题,在RFB模块中嵌入极化自注意力(Polarized Self-Attention)机制以改进RFB来提取有效文本特征,提高特征图表征效果。针对特征金字塔(FPN)提取的特征不足、感受野小的问题,将改进的RFB模块嵌入特征金字塔(FPN)模块以增强特征提取融合。针对特征分布不确定性及远距离特征融合效果不佳的问题,引入条形池化(Strip Pooling)模块,进而提升检测方法的鲁棒性。在公开数据集Total-Text上的实验结果表明,该算法的F-measure值在端到端文本识别没有词汇表的情形下与目前高效的MaskTextSpotterV3相比高了0.3百分点,而在有词汇表的情形下则高出了0.2百分点;而在仅文本检测的情形下,该方法也有较为良好的表现。