摘要

本发明公开了一种基于深度学习的文本检测与识别的端到端方法,包括以下步骤:构建并训练基于神经网络的端到端模型,使用训练完成的端到端模型对给定图像中的文档文本进行检测和识别。本发明的文本检测与识别的端到端模型,在骨架网络阶段,通过设计的融合模块达成跨尺度的特征融合,不仅降低了计算开销,还提高了模型的精度;在训练的优化阶段,通过联合文本检测任务的损失函数和文本识别的损失函数,兼顾了文本检测与识别的损失,同时优化文本检测与文本识别任务,降低训练带来的时间成本;在推理阶段,模型只需要进行一次向前推理,就可以在较低代价下同时获取文本框和对应的置信度、文本内容。