摘要

针对表格识别与分析领域中表内单元格间隶属关系抽取问题开展研究。定义了表格隶属关系抽取任务,结合表格与图结构的相似性,给出了表内单元格的图表示方法,并提出一种基于图卷积网络的隶属关系抽取模型。该模型通过图卷积网络对表内单元格及其邻近格进行特征的聚合,预测单元格间是否存在隶属关系,实现关系抽取。为了验证模型的有效性,标注了中文表单Rel-forms及英文表格Rel-SciTSR两个数据集。通过实验,在上述两类数据集及联合数据集上F1分数分别达到了98.61%、96.55%、97.05%,验证了隶属关系抽取模型在此两个数据集上的有效性,并分别分析了文本内容、坐标信息、单元格属性及格间相对方向等不同因素对隶属关系抽取实验结果的影响。

全文