摘要

数据挖掘算法已被广泛应用于科学研究与实践中。考察数据挖掘算法在学术论文中的使用情况、进而评估其影响力,能辅助研究者全面了解其所在领域的常用算法,并根据研究任务类型选择相应算法。本文利用学术论文全文内容,对算法的使用行为进行分析,从而考察算法的影响力。具体来说,本文以自然语言处理领域为例,收集整理全国计算语言学会议(CCL)1993—2016年收录的学术论文全文数据,从使用频次、使用位置、使用年代以及使用动机等四个方面全面考察十大经典数据挖掘算法在该领域的使用情况,并在此基础上对算法的影响力进行评估。实验结果显示,十大算法的使用行为存在明显差异,且SVM算法影响力最高,CART与Apriori算法影响力较低。本文研究可为基于数据驱动的相关研究者,尤其是为初学者在算法选择时提供参考。