摘要

随着信息过载问题日益严重,对新闻长文本进行自动摘要,不仅可以帮助读者实现快速精准地浏览,也能够减少撰写摘要所需要的人力物力。现有的自动文摘算法主要分为抽取式和生成式两大类,前者注重从原文抽取关键句子,后者倾向于模仿人类总结摘要的过程对原文进行理解和压缩。然而现有的算法中,面向中文长文本摘要的研究较少,并且大多数算法都聚焦于提升生成摘要的可读性而忽略了事实准确性。针对以上问题,本文提出了一种基于实体注意力的生成式摘要算法,将实体注意力与时序注意力相结合,并将实体信息引入了损失函数。经实验,所提出的模型在中文长文本数据集CLTS上取得了45.86的ROUGE-L得分,和其他模型相比能生成具有更高可读性的摘要。