摘要
[目的/意义]从不同来源的文本中识别和提取学术论文寻找合适的方法,为后续开展国内替代计量研究提供参考。[方法/过程]基于广泛的数据收集,总结归纳中国替代数据来源类别,提出从中国替代计量数据来源中识别学术论文的思路,探究将命名实体识别的方法引入识别和提取学术论文上的可能性,并利用基于正则表达式的识别方法进行实证分析。[结果/结论]中国替代计量数据源种类繁多,包括知识共享平台、学术社交平台、大众社交平台、新闻平台、学科交流平台和视频网站。学术论文提及作为一类新型的命名实体,可参考传统的命名实体识别方法进行识别和提取。实证研究显示,基于正则表达式的方法可以用于学术论文的识别,在知乎“机器学习”话题的数据集上取得了80%的F1值,而正则表达式模板的匹配度对识别效果起关键性作用。
- 单位