摘要

对于复杂背景图片的文字识别,首先要做的就是定位目标文字的位置,即文字检测。想要文字识别率高,那对文字检测的准确度的要求就非常高了。传统的RPN(region proposal network)神经网络在文字检测领域的研究已经很成熟,但RPN神经网络在营业执照水平文字检测的准确度上不是很理想。而基于CTPN(connectionist text proposal network)神经网络的文字检测模型明显提高了营业执照水平文字检测的正确率,但用于项目中的话,准确率还是远远不够的。该文是以最新的营业执照作为研究对象,由于检测的图片易受光照和采集设备的影响,加上营业执照的背景比较复杂,所以能够准确地检测到目标文字的位置就非常具有挑战性。文中是通过CTPN神经网络模型来检测出营业执照中水平文字所在的位置,用矩形框来标注,也就是横向水平检测。目前开源的CTPN模型,都是基于某种数据集来训练的,所以对营业执照的文字检测效果就很差,因此该文使用2 000张营业执照图像作为实验数据,进行10 000迭代训练CTPN模型,最终能够准确地检测到营业执照中目标文字的位置,供项目使用。