摘要
为提高地理编码系统对输入地址的分词适应性及匹配准确度,该文基于Lucene索引及查询机制提出了一种可适应于中文非标准地址的地址匹配改进方法。首先依据中文地址模式创建地址元素分层索引库,然后将拼音三叉树、同义词配置、未登录词配置等功能集成于IK分词器,获得初次匹配结果集合后计算编辑距离并排序选取返回值。匹配系统以浙江省台州市公安地址及行政法人地址为数据基础构建分词库和索引库,结果表明,该方法可实现输入地址的自适应分词,对中文非标准地址的匹配效果良好,能够服务于测绘和地理信息的相关应用场景。
-
单位国土资源部; 深圳市规划国土房产信息中心; 浙江省测绘科学技术研究院; 武汉大学