摘要

术语抽取是学术文献知识挖掘的关键技术,其研究目标是提升学术文献领域术语抽取的效率。目前术语抽取主要分为三类方法,即基于规则的方法、基于统计学的方法、基于监督学习的方法。首先,本文对术语抽取中的代表方法进行了实验对比研究,包括语言学、统计学(TF-IDF、C-value、基于KL散度的方法等)、CRF及Bi-LSTM方法;其次,针对目前学术文献中术语抽取缺乏大量的手工标注语料的问题,提出了应用于当前学术文献术语抽取的改进模型;最后,总结了实验发现并提出了现阶段学术文献术语抽取及语料标注的方案。

全文