摘要
为提高地理空间数据集成抽取的查准率和查全率,提出了基于机器学习的地理空间数据抽取算法。以GeoNames、OpenStreetMap等作为地理信息数据源,通过网络爬虫以及搜索引擎检索同时下载有关网页,并对内容进行过滤,过滤后对网页中的地点名称及地址信息等数据进行解析抽取,实现其可视化。分析抽取得到的地理数据实体,利用地理数据与实体之间的映射,将异构地理数据的歧义消除,实现地理空间数据一体化,并依据实体名称、类别等多特征相似程度计算,实现地理数据特征数字化。结合多特征、机器学习KNN分类法完成地理数据链接自动化,实现地理空间数据的分类抽取。通过实验对本文算法进行验证,结果表明:本文算法具有较高的查准率和查全率,数据抽取效果良好,可为地理数据集成提取奠定基础。
- 单位