统计决策树下的城市地址集中文分词

作者:应申; 李威阳; 贺彪; 王维; 万远*
来源:武汉大学学报(信息科学版), 2019, 44(02): 302-309.
DOI:10.13203/j.whugis20170072

摘要

不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。

全文