摘要

[目的/意义]文章提出了一种新的基于BERT和引文上下文的文献向量表征方法,旨在有效实现对文献的语义表征及检索。[方法/过程]基于arXiv数据库中"计算语言学"领域的相关文献数据,利用引文上下文将被引文献映射到全局唯一ID,构造包含施引文献引文上下文和被引文献ID的训练语料,通过BERT预训练模型开展训练,将施引文献引文上下文与被引文献ID表征在同一向量空间,进而实现语义计算和检索。[结果/结论]与基于文献全文开展的文献检索方式相比,基于BERT和引文上下文的文献检索方法能够隐含编码被引文献引用强度、被引文献核心概念等关键信息,从而能够更好地表征被引文献。随后,文章开展了语义检索和相似文献发掘实验,结果证明该检索方法切实有效。

全文