摘要
面对农业领域丰富的中文期刊论文资源,为实现对农业中文期刊论文文本信息的高效利用,识别与抽取论文中信息已成为一种非常迫切的需求。通过对现有论文信息识别与抽取方法及工具进行调研,确定基于条件随机场算法以及GROBID工具进行农业中文期刊论文信息的识别与抽取。本文构建了农业中文期刊论文信息识别与抽取级联模型,并通过数据采集、文本预处理、特征选择、序列标注、特征模板以及模型训练及评估等一系列流程对模型进行实现与应用。实验结果表明,在进行农业中文期刊论文信息识别与抽取时,该模型在论文头信息以及引文信息抽取方面具有较好的效果,在章节标题以及段落信息的识别上仍然存在不足。
- 单位