摘要
地球科学数据具有丰富的语义信息,这为探索地学奥妙带来广阔空间的同时,也为数据共享带来了挑战。缺少语义的认知和关联使得用户难以从复杂、海量、多源、异构的地球科学数据中发现符合自身需求的数据。以中国科学院《地球大数据科学工程》的共享数据集为研究对象,对数据文本进行分词和标签提取,实现数据形式的统一,以达到多源异构数据的规范化管理。研究表明,通过对数据集实现标签提取、标签推荐以及知识图谱的构建,可促进海量地球科学数据的管理和精准服务。研究结果可为更多的科学数据共享平台提供借鉴。
- 单位
地球科学数据具有丰富的语义信息,这为探索地学奥妙带来广阔空间的同时,也为数据共享带来了挑战。缺少语义的认知和关联使得用户难以从复杂、海量、多源、异构的地球科学数据中发现符合自身需求的数据。以中国科学院《地球大数据科学工程》的共享数据集为研究对象,对数据文本进行分词和标签提取,实现数据形式的统一,以达到多源异构数据的规范化管理。研究表明,通过对数据集实现标签提取、标签推荐以及知识图谱的构建,可促进海量地球科学数据的管理和精准服务。研究结果可为更多的科学数据共享平台提供借鉴。