PDF文档表格信息的识别与提取

作者:田翠华*; 张一平; 胡志钢; 高静敏; 李西雨
来源:厦门理工学院学报, 2020, 28(03): 70-76.
DOI:10.19697/j.cnki.1673-4432.202003012

摘要

为编辑PDF文档中的表格信息,设计一种基于Python平台的,包含文件选取与文件转换两大功能模块的信息提取软件。该软件利用Python内置库,针对PDF中不同表格的结构设计算法,识别表格内的文字信息与表格结构,将得到的表格结构还原至Word与Excel文档中,文字信息同样复原至对应单元格内。实验表明:开发的软件完整快速地提取了PDF中的表格信息,并将其转化为易于编辑的Excel和Word文档,达到了预期目的;其转换速度与收费软件WPS相当,转换速度明显快于其他免费转换软件;识别精确度与迅捷PDF转换器、Smallpdf等相比有所提高。

全文