摘要

面向特定领域开展科技情报分析时,由于文献的集中与离散分布规律,难以有效构造全量文献集。那么多大规模的领域文献集是可靠的?这一问题在不同的情报分析任务场景下,有不同答案。本文综合考虑待分析领域大小、待分析对象(学科分类、国家、机构、关键词、引文、作者,及其各自共现关系)、待分析对象的Top值截取(如高频词)数量、结果是否考虑排序等常见的多种任务场景,设计相应的实验方案。以"人工智能"领域WoS(Web of Science)数据为例,开展多种规模的数据抽样,并计算得出抽样子文献集对全量文献集的拟合指标值为4800个,以量化结果揭示科技情报分析中不同任务场景对文献集规模的要求。研究结果表明,涉及学科与国家分类的分析任务,以极小规模文献集便可得到较为可靠的结果;涉及作者的分析任务,对于文献集规模的要求极高,有必要采用全量数据;涉及机构、关键词、引文的分析任务,文献集达到一定规模可得到较为可靠的结果,但相应规模受不同因素的影响,尤其是共现分析、截取较多Top对象和结果要求排序这三种任务场景对文献集规模要求更高。