摘要
众源数据本质是指网络世界中存在大量、复杂、有潜力的"垃圾"数据,采用有效方法与技术将这类感兴趣数据进行收集并利用,是文章的研究中心。文章引入互联网前沿技术,运用知识图谱对众源数据的知识进行抽取。在知识图谱中,知识描述措施旨在利用一种低维稀疏的向量表示方法来高效地发现特殊实体、关系之间内在语义关系,这在知识问答、信息检索等应用场景有着重要实用意义。但是,现有为数不少的知识描述措施忽视了铀资源场景要素,如缺失随场景变更的铀矿知识。针对该领域的矛盾,文章创建了基于离散向量的众源数据建模方法。该方法将核电站场景信息以差异的水平融入到不同类型的实体向量中,而后挖掘每个实体相关的众源数据知识语义联系。文章描述了知识体现的原理知识,然后提出了利用传统的人工智能方法构建众源数据,接着采用了当前受到认可的语义网及开放知识建模方法来进一步论证众源数据的知识表达的可行性。最后利用全球铀矿地质知识建模案例测试显示,这种基于实体离散向量的表示措施可以显著满足知识图谱的铀资源场景补全和铀矿地质预测研究的需求。
-
单位核工业北京地质研究院