摘要
【目的/意义】针对豆瓣读书书目信息中作者名称信息较少和不规范的现象,将其与中文名称规范联合数据库中个人名称数据进行聚合,丰富名称变异形式,实现异构、异地数据的相互关联。【方法/过程】首先介绍了受控词表与分众分类词表,分析了二者结合的必要性;然后构建数据集,并且基于LCS、Jaro-Winkler Diatance及编辑距离算法进行实验,确认豆瓣读书数据和中文名称规范联合数据库数据异构对齐的可行性;最后通过构造资源描述框架模式(RDFS)词表,对各实体属性进行规范化,将其发布为关联数据,实现本地站点的数据关联化。【结果/结论】基于关联数据实现了豆瓣读书作者名称数据与其对应的作品数据,以及中文名称规范库个人名称数据的聚合。
- 单位