摘要

随着卷积神经网络的发展,场景文本检测也得到了快速发展。然而,场景文本检测仍然存在很多问题:一方面,许多检测方法都采用矩形框作为检测框,这对于图像中不规则的文本是不友好的;另一方面,部分方法获取的检测框无法分离相邻的文本实例,从而导致图像中相邻文本的误检测。为了解决这两个问题,文中提出了一种基于文本三区域分割的场景文本检测方法,将图像的文本实例分别映射到整体区域、核心区域和边框区域空间中,以获取图像的文本实例在上述3个区域的分割图,然后利用整体区域分割图和边框区域分割图来指导核心区域分割图的生成。文本的核心区域虽包含了图像中的文本位置、大小等信息,但是缺少边界信息。为了获取更加精确的检测结果,所提方法利用文本的边框区域来对核心区域进行监督学习。最后将基于文本的核心区域分割图像,产生契合文本核心的外接多边形,并进行一定比例的扩张,获取检测结果。实验结果表明,所提方法在ICDAR2015数据集上的准确率可达到83%,与现有的检测算法相比,其F值获得了1%以上的提升,而且该算法在弯曲文本的检测上亦有着优异的表现。