BETES：一种中文长文档抽取式摘要方法

王宗辉; 李宝安; 吕学强; 游新冬

摘要

在自然语言处理领域是最重要的研究工作之一，并随着深度学习的兴起成为研究热点，而中文长文本的摘要抽取面临更大的挑战，存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题。本文以中文长文本的摘要抽取为研究对象，提出一种BETES方法，基于规则和人工辅助筛选构建中文长文本-摘要语料库；利用Bert预处理模型进行文本向量化，更好地捕捉长文本上下文的语义，提升信息抽取的准确性；在识别中文长文本的基本篇章单元的基础上，以基本篇章单元为抽取对象，降低摘要抽取的冗余度；最后利用Transformer神经网络抽取模型，实现基本篇章单元的抽取，提升摘要句抽取的准确率。实验证明，提出的BETES方法在中文长文本的抽取式摘要过程中提高了准确性，降低了冗余度，并且ROUGE分数优于主流的摘要抽取方法。

单位
北京信息科技大学

收藏分享被引浏览

更新时间：2021-11-10 18:54

BETES：一种中文长文档抽取式摘要方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友