摘要
【目的】探讨实体解析理论中经典的实体解析方法及逻辑思路。【文献范围】在GoogleScholar和CNKI中分别以检索词"EntityResolution"、"CollectiveAnalysis"、"Crowdsourced"、"ActiveLearning"、"Privacy-Preserving"和"实体解析"进行文献检索,再结合主题筛选,精读并使用追溯法获得实体解析研究的代表性文献共86篇。【方法】针对每种实体解析方法,归纳分析该方法的基本思想,并通过图示直观地呈现其中的解析过程;重点分析梳理方法实现过程中,现有研究所采用的关键策略、算法或技术等。【结果】实体解析是数据质量管理的基本操作,也是发现数据价值的关键步骤。【局限】未深入分析各实体解析方法的评价指标和应用情况。【结论】尽管现有实体解析方法能在一定程度上满足大部分应用的需求,但在大数据环境下其仍然面临着数据混杂性、隐私保护和分布式环境等方面的挑战。
- 单位