面向自然街景改进的文本检测

丁泽; 程艳云<sup>*</sup>

摘要

近年来，随着深度学习的发展，在自然街景下的文本检测取得了巨大的进步，但在多方向和弯曲文本及对比度低的文本检测中的效果仍不理想。因此，针对弯曲文本和对比度低的文本的检测问题，提出了一种融合多尺度模块的文本检测方法，并通过检测效果的提升，提高端到端文本识别的识别效果。针对RFB(Receptive Field Block)模块在下采样后局部信息丢失的问题，在RFB模块中嵌入极化自注意力(Polarized Self-Attention)机制以改进RFB来提取有效文本特征，提高特征图表征效果。针对特征金字塔(FPN)提取的特征不足、感受野小的问题，将改进的RFB模块嵌入特征金字塔(FPN)模块以增强特征提取融合。针对特征分布不确定性及远距离特征融合效果不佳的问题，引入条形池化(Strip Pooling)模块，进而提升检测方法的鲁棒性。在公开数据集Total-Text上的实验结果表明，该算法的F-measure值在端到端文本识别没有词汇表的情形下与目前高效的MaskTextSpotterV3相比高了0.3百分点，而在有词汇表的情形下则高出了0.2百分点；而在仅文本检测的情形下，该方法也有较为良好的表现。

单位
自动化学院; 南京邮电大学

收藏分享被引浏览

更新时间：2024-03-19 07:47

面向自然街景改进的文本检测

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友