摘要
多源异构的数据在融合的过程中,不可避免的会呈现多个实体表象指向同一个实体的现象。传统的实体统一算法多采用两两匹配、传递闭包的方式,只考虑了表象的属性相似度,在一次比较后就需要做出匹配决定,在当下属性值普遍缺失、表象间存在关联的大环境下有些不太适用,因此提出了一种基于多维相似度的整体式实体统一算法。本算法采用一种基于图的迭代聚类的整体式实体统一算法,实体统一的过程是各匹配对相互影响、循环往复不断迭代的整体式的过程;在匹配的过程中,综合使用了属性、"上下文"、"关系"等信息来进行了相似度的度量,进一步提高了实体统一的准确度;通过在多个数据集上进行对比实验,验证算法在实体统一方面的性能优势。
- 单位