基于规则匹配与深度学习AbTransformer的渔业标准表格信息抽取方法

作者:孙哲涛; 于红*; 宋奇书; 李光宇; 邵立铭; 杨惠宁; 张思佳; 孙华
来源:大连海洋大学学报, 2023, 38(01): 140-148.
DOI:10.16535/j.cnki.dlhyxb.2022-305

摘要

为解决渔业标准文本中表格结构多样、表头位置不固定导致抽取效果不佳的问题,提出一种结合规则匹配(rule-based-matching, RBM)与AbTransformer(Absolute Transformer)深度学习模型的表格信息抽取方法,该方法对规则类表格信息采用规则模板与BERT-BiLSTM-CRF模型进行信息抽取,对非规则类表格信息采用改进的Transformer进行抽取,即在位置编码模块中引入行位置编码,与特征向量拼接以获取表格行列位置。结果表明:本文中提出的AbTransformer模型相较于机器学习MLP模型,AUC值提升了1.46%,相较于TabTransformer模型,AUC值提高了1.18%;本文中提出的RBM-AbTransformer模型与AbTransformer模型相比,准确率、召回率和F1值分别提高了7.78%、4.19%和5.27%。研究表明,结合RBM与AbTransformer的渔业标准表格信息抽取方法,有效解决了表格结构多样、表头位置不固定的问题,提升了渔业标准表格信息抽取的整体效果。

全文