摘要
自然场景文本识别在学术研究和实际应用中具有重要价值,已经成为计算机视觉领域的研究热点之一。然而,识别过程存在文本风格多样、背景环境复杂等挑战,导致识别效率和准确率不佳。传统的基于手工设计特征文本识别方法由于其有限的表示能力,不足以有效地应对复杂的自然场景文本识别任务。近年来,采用深度学习方法在自然场景文本识别中取得了重大进展,本文系统地梳理了近年来相关研究工作。首先,根据是否需要对单字符进行分割,将自然场景文本识别方法分为基于分割与无需分割的方法,再根据其技术实现特点将无需分割的方法进行细分,并对各类最具有代表性的方法工作原理进行了阐述。然后,介绍了当前常用数据集以及评价指标,并在数据集上对各类方法进行了性能对比,从多个方面讨论了各类方法的优势与局限性。最后,针对基于深度学习的自然场景文本识别研究存在的不足和难点,并对其未来的发展趋势进行了展望。
- 单位