摘要

中文地址具有广泛的应用领域和应用价值,地址标准化是地址编码的基础,而地址编码技术是利用好地址数据的重要一环。本文基于双数组的极速多模式匹配的trie树来进行初步分词和词性标注,利用最长后缀匹配能够非常快速地找出包含行政区划的地址元素,以此为基础可以将地址切分成不同地址元素并标注等级,建立地址向量模型(AVSM)。将AVSM中行政区划部分地址数据进行条件组合,找出可能的行政区划候选值。采用余弦相似度算法,计算出最佳的行政路径。对于后续非行政区等级元素,使用概率地址模型对各等级元素进行概率统计,利用贝叶斯求出最佳的组词概率,进一步处理其它各个级别的地址。最后通过有限状态机能够对整个地址等级进行各级元素的隶属调整和实现不同等级具体修复方法。该方法能够保证在海量的地址数据中实现快速切分的同时对行政缺失的地址数据进行补全,利用关键词和概率模型有效地识别登录词,兼顾分词性能和可维护性。

  • 单位
    武汉邮电科学研究院