摘要
为解决传统关键词算法易忽略文档上下文语义信息,以及单词重要的统计特征未在深度学习方法中得到充分利用等问题,提出一种基于全局和局部特征表示的关键词抽取算法.首先,利用Transformer和卷积神经网络搭建深度学习模型,通过多头注意力机制计算单词的全局语义特征表示,并利用每个单词的词性和词频统计特征信息,与语义特征拼接融合得出单词的特征向量表示;然后,采用多层卷积神经网络融合空洞卷积神经网络高效捕获单词局部特征信息和单词间依赖关系;最后,将关键词抽取工作看成序列标注任务抽取最终关键词.通过在两个公开语料库上的多项调参和对比实验,证明提出的算法效果优于现有的主流关键词抽取算法,在Inspec和kp20k数据集上的F1值分别达到了49.87%和35.77%,有效提高了关键词自动抽取结果的准确性.
- 单位