摘要

【目的】探索施引文献中引用文本自动识别方法,并比较不同类型引用句在内容上的差别。【方法】提出一种无监督引用文本识别方法,通过比较候选句与施引文献和被引文献的文本相似度确定隐性引用句。为了精确计算文本相似度,提出向量空间模型与词嵌入模型相结合的两种文档向量模型。【结果】分别对两篇高被引论文约200篇施引文献中的隐性引用句进行了识别,本文方法的F值均达到92%以上。通过对显性引用句和隐性引用句的内容进行比较,发现两者在引用功能和情感上有明显区别:表达研究背景和技术基础的隐性引用句比例要高于显性引用句,而表达研究基础和研究比较的隐性引用句比例要低于显性引用句;45.3%的显性引用句为正面引用,而78.8%的隐性引用句为中性引用。【局限】仅对句子层面的引用文本进行识别,在短语层面的引用文本识别还有待于进一步探索。【结论】在识别引用文本时有必要识别隐性引用句,本文提出的引用文本识别方法性能较高。