摘要

通过对科研基金名称数据特点和文本数据聚类方法的分析,提出并实现了基于编辑距离算法(Levenshtein Distance)的科研基金名称数据分析方法,该算法首先通过设定相似度方式对科研基金名称数据进行聚类形成数据分组,再对分组数据进行二次聚类计算出组的相似度之和,并据此判定数据聚类中心。该方法已经成功应用于中国医学科学院医学信息研究所的医学文献基金数据处理。

  • 单位
    中国医学科学院医学信息研究所