摘要

针对现有的元数据提取方法提取精度不高且适应能力较差的问题,本文提出一种基于度量级融合的论文元数据提取方法。首先,提取论文首部的特征,利用已标注的数据集对HMM、SVM和CRF三种统计学习方法进行训练,生成相应的元数据提取模型;然后,根据贝叶斯判决理论推导出和规则,并利用和规则对三种提取模型产生的后验概率进行融合决策,实现论文元数据的提取;最后,通过设定时间段和文档数阈值,采用基于时间段统计的方法动态更新三种提取模型,以确保模型的有效性。在不同的数据集上对各种提取方法的性能进行了实验对比,结果表明,本文提出的方法不仅提高了元数据提取精度,而且具有较强的适应能力。