一种基于深度学习的自然场景文本检测方法

刘发贵; 谷典

摘要

本发明公开了一种基于深度学习的任意形状自然场景文本检测方法。本发明的目的在于提升对于任意形状自然场景文本检测的准确率和召回率。所述方法包括以下步骤：构建并训练基于神经网络的自然场景文本检测模型,使用训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测。本发明提出通用的完整性感知的损失函数替代回归分支的smooth l1 loss损失函数,将IoU相关的指标直接作为被优化的对象,从而直接地提高检测的精度和召回率；本发明在Mask RCNN头中增加TextIoU头用来预测文本掩模的IoU,并将该预测值乘以Box头的分类置信度,获得最终的置信度得分,凭借此来筛选得到最终的检测结果。TextIoU头的加入,可以有效抑制假阳性结果,从而提高检测效果。

单位
华南理工大学

收藏分享被引浏览

更新时间：2024-11-29 01:38

一种基于深度学习的自然场景文本检测方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友