摘要
【目的】将同一篇引文文献的不同表达形式进行归一,实现期刊引文数据规范控制与管理,减轻引文失范造成的数据质量问题。【方法】以期刊引文数据库建设为目标场景,根据参考文献著录标准分析期刊引文数据的核心特征,基于决策树方法和准确率指标获取有效特征子集并指定决策规则执行优先顺序,生成多特征融合的自动数据处理策略。【结果】选取CBMCI的10 000条期刊引文样本数据集和10 000条验证数据集进行验证,本文方法进行期刊引文归一规范的准确率分别达99.72%、98.70%。【局限】仅探讨了中文期刊引文失范数据的处理,尚未考虑其他语种和类型的引文。【结论】该处理策略能够高效自动化地开展大规模期刊引文数据的归一规范,减少人工干预,特征融合的思路也适用于建立其他类型引文归一规范时的自动处理策略。
-
单位中国医学科学院医学信息研究所; 中国科学院大学; 中国科学院科技战略咨询研究院; 中国科学院文献情报中心