摘要

针对现有方法在处理长文本时,存在冗余信息处理困难和无法筛选出最高质量摘要的问题,本研究提出了一种阶段式长文本摘要生成方法(PLSGA)。首先,将样本数据的文本和参考摘要分割,利用Sentence-Bert获取语义向量并进行相似度比对,从中抽取文本的关键信息;通过关键信息和非关键信息训练抽取模型,以尽可能的保留原文本的语义信息;将抽取的关键信息和参考摘要作为样本输入骨干模型BART进行生成模型训练;最后,通过生成模型生成多条候选摘要,并使用无参考摘要评分模型筛选出质量最好的摘要。实验证明,提出的阶段式长文本摘要生成方法在多个中文长文本数据集上进行实验,结果表明相对于目前主流的方法以及ChatGPT,其效果均有提升,具有领域优势,生成的摘要质量更好,更具可读性。