摘要
机械表格类档案广泛存在于生产、制造等领域,包括机械工艺卡、零部件测试报表等。纸质版机械表格类档案数字化,以及对表格中的表格、文字等有效元素进行提取,是有效管理机械类产品的关键内容。现有表格有效元素提取算法成果较为丰富,但对存在纵向框线为虚线、纵向框线错位、连续跨页等现象的非规则表格处理效果不佳。针对纵向直线不连续、框线错位的表格,提出一种图像统计学聚类表格识别分割算法,提高了算法的自适应能力及鲁棒性;然后针对表格跨页问题提出一种基于局部小区域内像素占比的跨页拼接算法,最终实现了机械产品中非规则表格的数字化复现。对现有的147张存在非规则现象的机械零部件测试报表进行数字化(分辨率为75 dpi~400 dpi)后,利用所提算法进行迭代测试,非规则表格的定位分割拼接准确率可达97.32%。实验证明了该方法的有效性。
-
单位机电工程学院; 电子信息工程学院; 西安工业大学