摘要

[目的]“无监督排序+分类”模式的两阶段混合方法是目前较为有效的被引片段识别方法,但仍存在着无监督排序可靠性较低,分类得到的被引句数量不稳定问题;并且被引片段的识别粒度仅限于单句。本研究拟对混合方法中的上述问题予以改进以提高其性能,同时解决不同粒度被引片段的识别问题。 [方法]提出一种面向被引片段识别的改进混合方法,在第一阶段采用有监督排序从所有被引文献句中筛选出候选被引句,在第二阶段通过回归方法确定最终被引片段。此外,引入包含不同数量连续句子的n元句输入方式以及组内标准化方法以识别不同粒度的被引片段。 [结果]在CL-SciSumm 2019和2020竞赛语料测试集上进行测评,本研究所提改进混合方法句子重合度F_(1)值为0.167;采用3元句输入方式和组内Z值标准化,其句子重合度F_(1)值由0.083提高到0.158。 [局限]目前未能使用被引文献句的位置特征,且在下游任务中的应用尚待探索。 [结论]本研究所提改进混合方法在被引片段识别粒度为单句和多个连续单句时均取得良好效果。