摘要
场景图像中的文字区域定位是近年的研究热点之一.尤其是2015年至今,基于深度学习的场景文字检测算法取得了重要进展,其检测结果相对于传统方法有显著提升,因此得到了学术界的广泛关注.文字识别作为场景文字检测的后续步骤和最终目标,要求场景文字检测算法能够在各种真实无约束的场景中提取全面、准确的文本区域信息.然而,尚不存在一种能够在各种场景图像中都取得最佳文字检测效果的算法;相反,不同的方法在不同数据集上有着效果各异的表现.其中,部分文字区域被漏检的问题,由于目前采用的IoU评价指标而被忽视,未得到应有的重视.指出场景文字检测算法的漏检问题,提出新的文字检测算法辅助指标—漏检率(Undetected Rate).同时,为了解决漏检问题,提出集成不同场景文字检测算法的结果以提升召回率、降低漏检率的融合算法.实验阶段不仅使用了5种具有挑战性的标准数据集,为了面向更多的无约束的真实场景,还加入了两种大型的中文数据集.在不加入任何数据增强的情况下,融合算法表现出更高的召回率和更低的漏检率.
- 单位