摘要

海量科技文献中“睡美人”的充分挖掘与广泛利用,能够最大程度实现此类文献的科学价值,发挥其对科技发展的重大促进作用。本文设计和实现融合K值算法的BP (back propagation)神经网络模型,以及融合最小二乘法和迭代算法的一元二次函数拟合识别模型,对细胞生物学领域401130篇论文中的“睡美人”进行识别检验,结果发现:(1)BP神经网络模型能明显改进“睡美人”识别的自动化程度和效果,不受引文期长短的影响,然而需要预先识别出“睡美人”进行识别模型训练;最小二乘法、迭代算法和切片算法的融入能够提升一元二次函数和基尼系数的识别效率。(2)一元二次函数拟合受引文期的影响较小,然而基尼系数受引文期的影响极大,较短引文期文献中识别出的“睡美人”数量是较长引文期文献中“睡美人”数量的15倍。(3)即使同一个领域,识别结果的方法差异也较为明显。K值算法、BP神经网络和一元二次函数的识别效果较优,然而识别数量较少,占总量比例不到0.09%。基尼系数方法受引文期影响,导致识别效果最差且识别数量最多,占比达到0.41%。(4)细胞生物学领域“睡美人”数量的年度分布较为稳定,保持在0.02%~0.17%。(5)“睡美人”识别结果能够广泛应用于不同价值文献的计量特征比较,领域研究热点主题的识别与推荐,以及潜在“精品”或高价值文献的识别与传播推荐。