摘要
[目的]目前,科技文献大数据中存在着主题词不规范、不统一的情况,因此在构建检索式时很难既满足查全要求,又满足查准要求。针对这一问题,本文提出了一种基于词向量的检索扩展方法,并在"基于多组学大数据的功能基因挖掘与辅助育种技术"领域进行了实验验证。[方法]首先清洗数据集,并将文本映射成词向量,一篇文章可以用其所有词向量的平均向量表示;然后用训练集中文章的平均词向量训练随机森林分类器;最后在测试集中对文本进行分类,从而得到正例数据即检索数据集。[结果]针对"基于多组学大数据的功能基因挖掘与辅助育种技术"领域构建检索式,通过对比检索式所提取的小数据集、扩展检索式数据集和该方法提取的检索数据集的主题词云并对其进行主题共现聚类,结果发现相比小数据集和扩展检索式数据集,检索数据集能够表现另外两个数据集所体现的主题词和主题聚类,同时能够展现更多属于该主题领域的主题词和主题聚类。[结论]结果表明该方法具有较好的查全性和查准性,构建了满足分析的"基于多组学大数据的功能基因挖掘与辅助育种技术"领域数据集,同时在构建其他领域数据集时具有可扩展性,在未来研究中可以被应用到其他目标领域的数据集构建中。
-
单位中国农业科学院农业信息研究所; 中国铁道科学研究院集团有限公司