摘要

本发明公开了一种基于深度学习的自然场景文本检测方法。该方法使用CNN网络提取文本的多尺度特征,然后使用RNN编码这些特征以充分利用文本的上下文特性;接着,将特征图输入ROI池化层并输出一系列的文本提议。在经过非极大值抑制之后,最后通过一个文本连接器将生成的文本提议连接起来,从而灵活高效地实现多尺度、多方向的文本检测。本发明提升了多方向、变尺度条件下自然场景文本检测的准确率和召回率。