为了进一步改进数据质量,提出了双向全局过滤的自举策略,不仅考虑单向的、局部的对齐,还采取具有一对一约束的最近邻选择算法捕捉全局结构和双向对齐信息,从全局确保一个源实体与一个目标实体对齐,从而减少错误样本并生成高质量的训练数据。最终在3个真实世界中的跨语言数据集上的实验结果 Hits@1平均稳定在96%左右,这表明本文方法能够有效地自动标注训练数据,并产生高质量的对齐结果,从而提高实体对齐的准确性和可靠性。该方法对于知识图谱的合并和扩展具有广泛的应用前景。