摘要

本发明公开了一种基于深度学习的任意形状自然场景文本检测方法。本发明的目的在于提升对于任意形状自然场景文本检测的准确率和召回率。所述方法包括以下步骤:构建并训练基于神经网络的自然场景文本检测模型,使用训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测。本发明提出通用的完整性感知的损失函数替代回归分支的smooth l1 loss损失函数,将IoU相关的指标直接作为被优化的对象,从而直接地提高检测的精度和召回率;本发明在Mask RCNN头中增加TextIoU头用来预测文本掩模的IoU,并将该预测值乘以Box头的分类置信度,获得最终的置信度得分,凭借此来筛选得到最终的检测结果。TextIoU头的加入,可以有效抑制假阳性结果,从而提高检测效果。