摘要
由于相关信息片段分散分布在海量且复杂多样的网络信息资源中,用户往往需要花费大量时间浏览、查询和收集所需信息。面向聚合搜索的细粒度聚合单元元数据可以深入揭示信息特征及其关联关系,促进知识发现并提升知识服务效率。因此,有必要构建细粒度聚合单元的元数据描述框架。本文以图书情报领域开放获取期刊论文、在线百科、博客等网络信息资源为数据源,采用逻辑结构分析和形式结构分析方法建立聚合单元划分框架,包括篇章层级的标题、著者等外部特征,以及节段、句群、图表单元中的话语意图和语义功能等特征;通过分析聚合单元的属性特征及复用DC、LOM元数据元素,构建描述聚合单元访问信息、物理信息和语义信息的元数据框架;设计检索数据库并采用实验法对聚合单元元数据框架进行验证。实验表明,该元数据框架可支持多类型网络信息资源、各层级细粒度聚合单元的检索,可为细粒度信息聚合与搜索提供理论基础与实践指导。
- 单位