摘要
在现有纸质机械工艺卡中,表格元素存在纵向线段不连续、框线错位、跨页等不规则现象,导致传统的光学字符识别(OCR)算法无法准确定位识别表格元素,由此提出一种融合局部特征的非规则表格识别算法。首先,进行区域分块阈值求解,包括分块提取、局部横向线段检测、行距均值聚类求解,以及基于行距阈值的分块区域纵向线段检测;其次,进行表格区域预定位识别,包括源文件腐蚀、灰度二值化、自适应基础阈值的横向线段提取、基于行距阈值的纵向线段预提取、纵向分块图像特征融合、自定义掩膜处理,以及轮廓预提取;最后,使用区域重检测的方法,对预提取表格区域进行精准判别。经实验验证,该方法可以有效地解决未校正、纵向线段不连续、表格跨页等复杂表格难以准确定位提取的问题。在12 840张表格图像构成的测试集样本中进行了测试,平均识别准确率可达98.03%以上。该算法简洁有效,并在QT集成开发环境上得到了实现,该OCR软件已在某研究所信息化中心得到了成功应用。
-
单位机电工程学院; 西安工业大学; 电子信息工程学院