摘要

【目的】提出用于学术文献的尺寸自适应模板匹配算法,快速构建大规模学术文献图表位置标注数据集。【方法】PubMed Open Access数据集提供文献和图表的图片格式文件,解析文献内容,匹配文献页面和图表的图片格式文件,对页面和图表的图片格式文件进行特征提取,对特征点进行匹配,定位图表位置。【结果】使用本文方法对测试数据集进行标注实验,精确率为98.87%,F1值为97.44%。【局限】匹配文献页面和图表的图片格式文件的算法仅使用简单的关键词匹配方式,性能仍有提升空间。【结论】本文算法能够快速地构造学术文献图表位置数据集,节省大量人力时间成本。