摘要
知识图谱需要从大量文本、图像、数据库等信息源中提取知识,而关系数据库是其中一个重要的数据源,存储了大量高质量数据。目前,有许多研究工作集中于从关系数据库到RDF的转换,主要考虑结构信息的转换,较少研究实体间语义关系的发现。提出一种基于随机森林的数据库实体间语义关系发现与转换方法,将关系数据转换为RDF,能够有效地发现数据库中实体之间的隐含语义关系。该方法构建融合数据库模式和数据内容的特征向量,设计并实现基于随机森林的实体间语义关系发现算法;基于发现的语义关系,实现多对多、一对多等实体语义关系的转换。实验结果表明,相对于传统的直接映射算法,该方法有更高的提取质量,减少了最终生成知识图谱中的冗余与错误。
-
单位复旦大学; 中国航空无线电电子研究所