摘要
科研项目申请书蕴含丰富的科学知识,被广泛用作科技情报分析的基础数据,其中重复检测、分析挖掘等智能处理工作需要在明晰申请书结构功能的前提下展开。因此,构建一种基于多阶段分类的科研项目申请书结构功能识别模型。首先,对申请书进行预处理,识别申请书的正文内容及其包含的多模态要素,并将文本段落规范化;之后,基于BiLSTM-Attention模型,依次区分申请书中的章节标题与正文文本,基于标题识别正文文本的一级功能,进而识别申请书的细粒度结构功能。实验结果显示,所提方法的准确率与召回率分别达到93.7%和93.1%,该方法能较好支撑科研项目申请书的结构化解析,也能为其他类型学术文本的结构功能识别提供参考。
- 单位