摘要

从地质文本中提取地质命名实体对地质大数据的深度挖掘与应用具有重要意义。本文定义了地质命名实体的概念并制订了标注规范,设计了地质实体对象化表达模型。地质文本存在大量长实体、复杂嵌套实体,这都增加了地质命名实体识别任务的挑战性。针对上述问题,(1)引入BERT模型生成顾及上下文信息的高质量词向量表征;(2)采用双向门控循环单元-注意力机制-条件随机场(BiGRU-Attention-CRF)对前一层输出的语义编码进行序列标注与解码。通过与主流深度学习模型进行对比,该模型的F1值为84.02%,均比其他模型表现出更为优异的性能,能在小规模地质语料库上有较好的识别效果。