摘要

网络文本是构建和填补大规模地理知识图谱的重要地理信息来源。但网络文本来源广泛、动态性强、表达方式复杂多样、蕴含地理信息良莠不齐,网络文本蕴含地理信息质量评估面临评估对象多层次、质量维度不明确、评估指标多元化、深层次指标难获取和评估方法多样化的挑战。因此,本文提出了一种网络文本蕴含地理信息质量评估框架(QAF-GIWT)。QAFGIWT面向网络文本获取地理信息过程,明确了数据源、数据项和数据集3层质量评估对象,针对不同层次评估对象定义了包含相关性、新颖性、可靠性和完整性4个质量维度和相应的量化评估指标,系统地梳理了质量评估过程中所涉及指标计算、指标综合和质量预测方法的特点及其适用性。其中,借助自然语言处理技术及相应的指标计算方法,构建了包含单元地理语义比率、地理语义含量比率、平均地理信息含量比率和地理信息含量比率、地理实体比率、窗口地理信息含量比率等指标。实验中针对马蜂窝等类型网站特性设计了QAF-GIWT框架,针对多层次质量指标的综合评估,采用了层次分析法进行可靠性综合评估,应用实验案例验证了QAF-GIWT框架的有效性。QAF-GIWT提供了一整套囊括质量维度、质量指标和质量评估方法的方案,可辅助进行海量异构动态的网络文本数据源的筛选和从中获取地理信息的过滤,大幅度减小信息获取的复杂度,降低数据存储冗余度。