摘要
对学术论文所采用的研究方法进行自动分类,有助于研究方法使用行为的分析与研究方法的评估,进而为科研人员推荐或选择合适的研究方法提供依据。相比于摘要信息,全文内容包含更多关于研究方法的上下文信息,因此探索基于全文内容的学术论文研究方法自动分类具有重要的意义。本研究以图书情报领域的820篇学术论文全文为研究对象,邀请专家对其研究方法进行标注得到研究方法训练语料;采用多标签分类任务中问题转换法和算法自适应法,将朴素贝叶斯与支持向量机作为问题转换法的底层分类器,构建6种不同的分类模型,同时选用算法自适应法中的ML-KNN模型,分别对论文中使用的研究方法进行自动分类。实验结果表明,相较于学术论文的摘要信息,全文内容在研究方法分类的性能上有较大的提升;朴素贝叶斯算法在问题转换法的分类器链策略中表现最佳,F1值达到0.705;另外结果也表明不同的学术论文研究方法的特征表征能力不同,训练集的规模较少会导致分类的泛化效果差。
-
单位经济管理学院; 南京理工大学