摘要

针对现有方法存在的忽略语义信息及重复提取语义相近关键词等问题,提出了一种基于Bidirectional encoderrepresentationfromtransformers(BERT)模型的无监督中文单文本关键词提取模型。该模型首先对待提取文本进行预处理以选取候选词,接着使用BERT模型的隐藏层结合全文信息获取候选词的词向量,然后加入聚类层筛除语义重复的候选词,最后获取全文语义向量并计算候选词与全文的语义的相似度评分,经排序后提取关键词。实验结果表明:将模型用于混合主题中文论文摘要等较短文本,在提取关键词的数量分别为5和8时,该模型的准确率分别为34.21%和26.34%,优于Text Rnka、TF-IDF等传统提取模型,表明该模型通过融合语义信息提升了中文单文本关键词提取的准确率,改善了关键词重复提取的问题,使提取的关键词更加准确,有效提升了中文单文本关键词提取质量。