摘要

关键短语抽取是一种识别目标文本中具有特殊价值的关键词组合的自然语言处理任务场景,对科技文献情报挖掘具有重要的实践价值。由于缺少足够的标注数据、知识库、预训练模型,针对前沿细分学科颠覆性内容的关键短语抽取还存在着许多挑战。将有限状态自动机概念引入关键短语抽取任务中,把关键短语的词性标注组合模式抽象为一系列有限状态自动机文法。这种基于词性自动机的无监督关键短语提取算法,能够在不依赖标注数据和高性能计算设备的条件下,通过高度自定义的词性组合模式,抽取不定长度的细分领域关键短语。这种算法具备运行速度快、环境依赖低、匹配模式多、提取效果好等特点。使用SemEval-2017数据集和智能新药发现领域的文献摘要作为测试数据,将研究所提出的算法和几种广泛应用的关键短语抽取算法进行对比。对比结果显示:这种算法在所有关键词中的准确率达到30.8%,召回率达到34.1%,F1值达到32.4%;在关键短语中的准确率达到30.8%,召回率达到52.0%,F1值达到38.7%。召回率指标与F1指标相比关键词抽取开源算法库有显著提升。