摘要
为了解决自然场景文本检测中由于文本实例分布随机、形态与尺度多样造成的检测难题,设计了一种基于注意力机制特征融合与增强的自然场景文本检测算法。利用注意力机制对有效特征提取的优势,在模型的解码融合阶段设计并引入了一种基于注意力的特征融合模块(Attention-based Feature Fusion Module, AFFM),利用空间和通道注意力分别为高层特征和低层特征引入更丰富的细节和全局信息,进一步提高了检测的准确率;设计了联合注意力特征增强模块(Joint Attention Feature Enhancement Module, JAM),利用卷积对级联后的特征在不同通道之间、空间位置间的联系建模,并生成联合特征权重mask对级联特征做加权,从而提高信息的表征能力,有效减少误检与漏检。在Total-Text和ICDAR2015两个数据集上对模型做评估,测试结果表明,该方法的F1综合指标分别达到了85.1%和87.6%,均优于当前主流算法。
-
单位南京邮电大学; 通信与信息工程学院