摘要
【目的】设计开发模块化计量指标分析平台,满足计量分析人员多维条件定制、实时高效计算的计量分析需求。【应用背景】面对海量科学文献数据,传统关系数据库进行大数据量计量计算时效率较低,计算时间长,分布式大数据技术为实时性科学计量分析平台提供了技术基础。【方法】设计计量指标管理模型及基于工作流的指标构建流程,将分析任务分解为多个可独立计算单元;基于分布式大数据ES索引、Redis集合计算、预计算指标等技术,将计算统计任务转化为倒排索引查询及集合运算等操作。【结果】为用户提供标准化的指标选择构建流程、可动态扩展的弹性任务配置及准实时的指标计算支持。【结论】以分布式大数据技术为基础,对计算任务抽象分装,实现了高效、通用的模块化分析平台,同时本研究也可为相关分析决策系统提供参考。
-
单位中国科学院大学; 中国科学院文献情报中心