摘要
【目的】解决PDF表格抽取中复杂表头的表格需要依靠大量人工标注的问题。【方法】利用框线信息进行表格检测与结构构建识别文档中表格结构信息后,使用词向量表示其中的内容文本,并计算表格行间内容余弦相似度,最后利用该值判断表格中表头与内容分界行。【结果】在自建PDF表格数据集上进行信息抽取实验,表格信息抽取结果 F1值为98.07%,表格内容划分结果 F1值超过99%,效果接近需要大量标注语料的深度学习文本分类模型。【局限】所提方法只能抽取关系型表格,且不适用于扫描型PDF文档。【结论】所提方法能够在一定程度上解决PDF文件复杂表头表格的自动抽取问题。
- 单位