摘要

【目的】为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容。【方法】将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取。【结果】实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849。【局限】缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷。【结论】本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考。

全文