摘要

在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题。本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用Bert预处理模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升摘要句抽取的准确率。实验证明,提出的BETES方法在中文长文本的抽取式摘要过程中提高了准确性,降低了冗余度,并且ROUGE分数优于主流的摘要抽取方法。