基于多粒度语义交互的抽取式多文档摘要

作者:田媛; 郝文宁*; 陈刚; 靳大尉; 邹傲
来源:计算机系统应用, 2022, 31(07): 186-193.
DOI:10.15888/j.cnki.csa.008562

摘要

信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing, NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容,帮助用户快速获取关键信息.针对目前多文档摘要中存在的信息不全面、冗余度高的问题,提出一种基于多粒度语义交互的抽取式摘要方法,将多粒度语义交互网络与最大边界相关法(maximal marginal relevance, MMR)相结合,通过不同粒度的语义交互训练句子的表示,捕获不同粒度的关键信息,从而保证摘要信息的全面性;同时结合改进的MMR以保证摘要信息的低冗余度,通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取.在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.

  • 单位
    中国人民解放军陆军工程大学