摘要

生成任务旨在解决用户在阅读新闻时无法快速把握内容重点而造成的时间损耗和阅读疲劳等问题。目前面向中文的文本摘要模型效果最佳的是T5 PEGASUS模型,但针对该模型的研究较少。文中针对T5 PEGASUS模型的中文分词方面进行改进,使用更适用于新闻领域的Pkuseg分词方法进行处理,并在NLPCC2017、LCSTS、SogouCS三种新闻长度不同的公开数据集上验证其有效性。研究发现Pkuseg分词方法更适合T5 PEGASUS模型,模型生成摘要的ROUGE值与新闻文本长度成正相关,训练集损失值和损失值下降速度与新闻文本长度成负相关,在面对少量训练集时能得到较高的ROUGE分数,因此该模型有着较强的小样本学习能力。

全文