基于知识图谱的中文地址匹配方法研究

作者:陈雨晖; 皮洲; 姜滕圣; 李响; **; 奚雪峰; 吴宏杰*; 付保川
来源:计算机工程与应用, 2022, 58(14): 306-312.

摘要

随着信息技术的迅猛发展,建设新型高效智慧型城市已成为趋势。智慧城市中有大量以地理信息为基础的应用场景,如在城市规划建设、城市便民生活服务、城市细化管理等都离不开地理信息。由于中文地址的复杂性与人工输入的不确定性,地址数据不规范性、不一致、不明确现象给业务系统之间与内部带来了很多困难。急需优秀的中文地址匹配方法。现有的匹配方法仅从地址文字出发进行匹配,而忽略地址作为一个实体蕴含着丰富的地理知识,这些知识可以有效地协助匹配过程,由此,提出注意力知识图谱的中文地址匹配方法,从而解决复杂中文地址匹配准确率低的问题。通过对传统的标准地址库进行地址分词以及特征抽取,建立标准地址知识图谱与POI知识图谱;采用基于选择注意力机制的知识图谱关系抽取方法来进行对地址的特征提取,从而进行地址分类;通过计算知识图谱实体相似度,从而进行非标中文地址的地址匹配。实验结果表明,该方法较基于Jaccard相似度的地址匹配方法、基于动态规划的地址匹配方法、基于Sorensen Dice的全文检索地址匹配方法和基于bert4keras预训练模型的地址匹配方法准确率分别提高了11.05%、15.30%、11.05%、0.95%,有效对复杂中文地址进行匹配。