摘要
针对现有方法在场景文本检测上的不足,提出一种基于像素分配方的场景文本检测方法,并采用了交叉注意力模块和多尺度特征自适应模块来分别在空间和和通道上优化特征提取;为了丰富不同尺度的特征表示,采用多尺度特征自适应模块进行自动分配不同尺度特征的权重;为了有效获取上下文信息,将特征网络提取到的特征送入交叉注意力模块;对每个像素,在其所在的水平路径和垂直路径上收集上下文信息;再通过循环操作,每一个像素便可以在全图范围内获取上下文信息;通过全卷积网络方法,使用多任务学习框架学习文本实例的几何特征,结合多任务学习的结果完成像素到文本框的分配,经过简单处理后重建文本实例的多边形边界框;在任意形状公开数据集Total-text上进行测试,文章方法的召回率、精确率、F值分别为75.71%、89.15%、81.89%,在多方向公开数据集ICDAR2015上也表现良好,经实验得召回率、精确率、F值分别为79.06%、89.24%、83.84%,证明了文章方法的有效性。
- 单位