摘要

区域地质调查报告是全面反映区域地质调查工作成果的重要技术文件。目前全国地质资料馆已经积累了海量的地质成果报告,对其进行信息抽取和挖掘可以充分挖掘现有报告的隐含价值,促进新知识的发现。本文面向自然语言处理领域的命名实体识别任务,构建了基于四份区域地质调查报告的命名实体识别试验数据集,该数据集可以用于训练和测试地质命名实体模型。数据集共包含四份区域地质调查成果报告,对地质时间、地质构造、地层、岩石、矿物和地点六类典型的地质命名实体进行了标注,对数据集分别进行了一致性检验、测试、评估等工作,保证了数据集的质量。数据集大小为4.84 MB,存储格式为.txt文本。