摘要
实现家谱资源的高效的组织和利用,需要从非结构化的家谱文本中提取实体及关系,进行结构化的表示。实体和关系的提取通常被作为序列标注任务来解决,输入的句子被映射到标签序列。针对家谱文本中实体和关系高度密集、关系重叠很常见的特点,该文构建了相应的概念模型来指导整个提取过程。在序列标注部分,该文在真实数据上检验了常用的深度学习模型的表现。实验结果显示,BERT-BiLSTM-CRF模型的精确率、召回率和F1值均优于所对比的其他模型,该文所提出的方法能够有效地解决家谱文本中的实体关系提取问题。
-
单位数据工程与知识工程教育部重点实验室; 中国人民大学