摘要
【目的】从科技查新候选检索结果中自动筛选与查新点语义相近的文献(期刊论文、专利)。【方法】设计基于Bi-GRU-ATT的深度多任务层次分类模型,利用国际专利分类表(IPC)类别及专利数据,训练多个不同层次分类模型,利用少量论文数据进行Fine-tuning,使之适用于论文和专利两种类别数据,依照先父后子的次序识别查新点及候选记录的语义类别,从而判定二者间的语义匹配度。【结果】在E21B专利分类下的两级分类模型中,准确率分别达到82.37%和73.55%,优于其他基准模型;在使用真实查新点实验数据的语义匹配实验中,语义匹配的精度达到88.13%,比基准检索模型(TF-IDF)提高15.16%。【局限】仅在少量类别中开展训练,还没有扩展到IPC所有分类中。【结论】初步实验表明该方法能够在一定程度上提升查新点语义匹配效果。
-
单位中国科学院文献情报中心; 中国科学院大学