摘要

是自然语言处理中的重要任务,它帮助人们从海量文本中提取简洁而重要信息。目前主流的生成式摘要模型是基于深度学习的序列到序列模型,这类模型生成的摘要质量有了较大的提升。但由于缺乏对原文中关键词和句子之间的依赖关系的关注,目前模型生成的摘要仍然存在语义不明、重要信息含量低等问题。针对这个问题,提出了一种基于关键词异构图的生成式摘要模型。该模型通过从原始文本中提取关键词,将其与句子共同作为输入构建异构图,进而学习关键词和句子之间的依赖关系。文档编码器和图编码器分别用于学习文本知识和异构图中的依赖关系。此外,在解码器中采用分层图注意力机制来提高模型在生成摘要时对显著信息的关注。在CNN/Daily Mail和XSum数据集上进行了充分的实验,实验结果表明论文提出的模型在ROUGE评价指标上有了显著的提升。根据进一步的人类评估结果显示,提出的模型所生成的摘要比基线模型包含更多的关键信息,并具有更高的可读性。

  • 单位
    中国电子科技集团公司第三十研究所; 四川大学