摘要

【目的】提出一种基于集成策略的中文专利摘要生成模型(STNLTP),以改善现有的自动文本摘要技术在处理长文档摘要生成时存在的生成重复问题和长程依赖问题。【方法】引入专利术语词典,运用基于SAT模型的义原词向量对“中药材”专利文本进行表示。基于集成策略,运用TextRank、Lead4和NMF三种抽取方法抽取专利说明书文本的关键句,经过聚类并去重,选出最优关键句。最后最优关键句通过基于Transformer字向量的指针生成网络得到最终的生成摘要。【结果】STNLTP模型实现了抽取式和生成式方法的结合,相较于对比模型RLCPAR,在ROUGE-1、ROUGE-2和ROUGE-L评价指标上分别提升2.00、9.73和2.35个百分点。【局限】生成摘要的部分结果存在一些常识性错误。【结论】STNLTP模型优于对比模型,可以改善中文专利摘要生成的效果。