国内自然语言处理领域数据集引用行为分析

徐琳宏; 王凯达; 张立杰

摘要

随着科学研究对数据的依赖性不断增强，分析国内自然语言处理领域内数据集的引用行为，有利于规范化数据集的构建和使用，推动国内自然语言处理领域的快速发展。选取《中文信息学报》2013—2022年的1 628篇论文为样本，通过全文本分析法，人工标注1 970条数据集引用信息，以研究文献对数据集的引用行为。研究发现：在国内自然语言处理领域研究中，引用他人数据集的论文数量逐渐增加，使用自建数据集的论文逐渐减少，并且引用数据集论文的篇均被引频次高于自建数据集论文；引用多个数据集的倾向较为明显，引用单个数据集的论文逐渐减少，并且引用2～3个数据集论文的篇均被引频次高于引用单个数据集的论文；数据集重用性较低，高被引数据集主要来源于评测。

单位
大连外国语大学

收藏分享被引浏览

更新时间：2024-03-19 06:29

国内自然语言处理领域数据集引用行为分析

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友