摘要

【目的】针对图模型方法在专利关键短语抽取过程中偏向于选取长关键短语并忽略短语所在位置的问题,本文提出融入术语度与层级信息的专利关键短语抽取方法,以提高专利关键短语抽取的准确性。【方法】基于传统的图模型方法,提出一种新的术语度指标,以衡量候选关键短语的术语信息;根据专利文献特征,将专利划分为若干层级,提出层级权重指标,以度量候选关键短语位置信息。【结果】实验结果表明,融入术语信息,专利关键短语抽取方法F值相对提高7.62%(纳米数据集)、11.45%(图像识别数据集)、9.80%(芯片数据集)和8.93%(液晶显示数据集)。融入层级信息,专利关键短语抽取方法F值相对提高9.93%(纳米数据集)、6.93%(图像识别数据集)、6.18%(芯片数据集)和5.58%(液晶显示数据集)。【局限】基于词性规则的候选关键短语选取方法产生较多的噪声,有待进一步研究。【结论】利用术语度与层次信息的专利关键短语抽取方法能够有效地提高专利关键短语抽取的准确性。