摘要
目前,无论是在研究或者是商业领域中,中文地址解析都没有一个成熟的模型结果。要素识别是地址解析的关键技术,传统的地址要素识别是基于特征词和字典匹配的方法,难以解决地址命名的多样性问题。利用自然语言处理技术,根据Trie树模型对行政区域寻址的方法和有限状态自动机模型对非规范地址的要素提取方法,本文提出T-FA模型对地址进行分级划分。其中,采用隐马尔可夫模型的切词方法和最长公共子序列算法,可以解决地址要素识别的模糊化搜索。T-FA模型具有良好的泛化能力,在批量处理地址时具有很好的通用效果,能比较有效地解决中文地址多样化的解析难题。
-
单位烽火通信科技股份有限公司; 武汉邮电科学研究院