摘要

当前中文地名匹配常见的相似性度量或是只考虑重合字符的数量未考虑位次性,或是体现位次性但未考虑重合字符。通过考虑两中文地名字符串的重合字符对应关系及其位次差距,构建了一种新的距离度量和相似性度量,能够结合重合字符和位次性两个因素计算两地名的偏距和偏距相似度。并且针对重合字符复现的情形确定偏距最小原则,设计全体顺次匹配方案;针对字符片段偏移的情形调整距离度量,从而更符合两地名相似性的直观认知。该距离度量满足正定性和对称性,但不满足三角不等式。与Jaccard系数和编辑距离相似度的测试对比结果表明,本文偏距算法对相似度刻画更为细致,能够检测到重合字符位次差异但更重视未重合字符的差异;在地名匹配实验中匹配正确率和运行时间分别为63.64%和 2 940.56 s,两项指标均优于Jaccard系数和编辑距离相似度。

  • 单位
    长江水利委员会; 武汉大学; 云南省地图院

全文