图谱报告PDF文件解析原理、示例与应用展望

作者:刘羽; 王辉; 王贺
来源:电脑知识与技术, 2021, 17(34): 134-140.
DOI:10.14004/j.cnki.ckt.2021.3616

摘要

目的:研究基于PDF文件解析的图谱数据提取方法,解决“数据孤岛”问题,实现数据的有效整合。方法:通过对PDF格式的图谱报告页面结构进行拆解、分析、归纳,逐步以示例展示PDF格式图谱文件的数据提取方法。一方面说明现有的PDF文本提取技术的原理,另一方面进一步研究对图谱曲线采用坐标变换进行还原以获得逼近原始数据真实值的数据的方法,并就处理后的图谱数据的应用方向进行了展望。结论:本文的研究结果表明,以PDF格式文件为媒介,可以将各类图谱报告的转化为自定义的数据,实现有效整合实验室资源,并为图谱报告的数据挖掘及AI应用创造条件。