摘要
【目的】针对科技资源分散、异构的特点,采用聚类的方法将分散、相关、相似的科技资源集成为多类型组合的资源池,以提高发现资源和利用资源的效率。本文提出一种基于领域本体的高维科技资源聚类方法。【方法】本方法构建了科技资源领域本体树和概念语义关系矩阵,并对其使用主成分分析(PCA)方法进行降维处理以构建科技资源向量空间,最终对科技资源向量空间应用K均值聚类算法得到聚类结果。与传统方法相比,本方法更适合于处理多源异构的科技资源数据。【结果】选取某国家生物种质资源库的资源数据作为科技资源集合,利用本方法得到了合理的聚类结果。【结论】本文提出的科技资源聚类方法具有三个特点:一是利用本体概念语义关系降维处理,有效降低了计算复杂度;二是较好地保留了重要的科技资源特征信息;三是生成的科技资源向量空间与聚类簇比较准确。本方法在一定程度上解决了多源异构科技资源数据的特征表示难、聚类效果差等问题。
-
单位经济管理学院; 北京航空航天大学