摘要
随着科学研究对数据的依赖性不断增强,分析国内自然语言处理领域内数据集的引用行为,有利于规范化数据集的构建和使用,推动国内自然语言处理领域的快速发展。选取《中文信息学报》2013—2022年的1 628篇论文为样本,通过全文本分析法,人工标注1 970条数据集引用信息,以研究文献对数据集的引用行为。研究发现:在国内自然语言处理领域研究中,引用他人数据集的论文数量逐渐增加,使用自建数据集的论文逐渐减少,并且引用数据集论文的篇均被引频次高于自建数据集论文;引用多个数据集的倾向较为明显,引用单个数据集的论文逐渐减少,并且引用2~3个数据集论文的篇均被引频次高于引用单个数据集的论文;数据集重用性较低,高被引数据集主要来源于评测。
-
单位大连外国语大学