摘要
传统的地址匹配方法往往难以胜任中文地址匹配问题.首先,每个中文单字都是独立整体,在纠错上难度大于英文,其次中文地址体系结构复杂,缺乏一个统一的标准.本文结合生物信息领域的序列比对思想,提出了一种基于动态规划的中文地址匹配方法.该方法将中文单字看成字符单元,对中文地址进行序列化,改进Smith-waterman算法进行序列匹配.针对中文的单字特点,统计区分文字的重要性差异,构建非均权打分策略;引入空分罚分策略,解决错误匹配及其过度拟合问题;使用排序均一化策略,优化了排序效率,增加了结果集的多样性.最后,将本算法应用于杭州市实际路网(1:30万),实验结果表明,该算法可以有效提升中文地址匹配精度.
- 单位