摘要
为编辑PDF文档中的表格信息,设计一种基于Python平台的,包含文件选取与文件转换两大功能模块的信息提取软件。该软件利用Python内置库,针对PDF中不同表格的结构设计算法,识别表格内的文字信息与表格结构,将得到的表格结构还原至Word与Excel文档中,文字信息同样复原至对应单元格内。实验表明:开发的软件完整快速地提取了PDF中的表格信息,并将其转化为易于编辑的Excel和Word文档,达到了预期目的;其转换速度与收费软件WPS相当,转换速度明显快于其他免费转换软件;识别精确度与迅捷PDF转换器、Smallpdf等相比有所提高。
- 单位