摘要

本发明公开了一种基于深度学习的视频场景文本检测方法、系统、设备及介质,所述方法包括:获取静态自然场景文本图像数据;对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;构建基于回归的端到端深度卷积神经网络模型;使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;利用训练后的深度卷积神经网络模型进行视频场景文本检测。本发明采用计算机视觉中基于深度学习的检测方法,通过设计高效的基于回归的端到端深度卷积神经网络模型,可以快速并且实时准确地获取视频中的场景文本,能够为后续文字识别等任务提供基础,对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。