摘要

【目的】为充分挖掘综述论文的语义情报内容,提出相关情报要素体系及其挖掘任务的形式化定义,构建相应的信息抽取技术框架。【方法】针对综述论文专业性强、术语分布稀疏、标注难度大等问题,通过多任务学习实现跨任务标注数据的信息互补,并引入自监督学习实现未标注数据中潜在信息的挖掘利用。【结果】本文所提技术框架显著增强了各项任务的性能表现,尤其是在要素间关系识别任务中,准确率提高8.32个百分点。此外,通过自监督学习,整体F1值进一步提升约2个百分点。【局限】在信息抽取过程中,未考虑图片、表格等文本之外的数据。【结论】提出了综述论文语义情报内容挖掘的方法流程,并引入多任务学习和自监督学习技术,利用跨任务标注数据及未标注数据提升挖掘效果。