摘要
[目的]专利文本摘要生成领域目前存在专利文本输入结构单一导致摘要生成具有单一偏向性问题,摘要生成整体上具有重复生成、不够简洁流畅、原始信息丢失等问题,本文主要解决以上问题从而使得专利文本生成摘要质量提升。 [方法]本文设计的基于改进多头注意力机制的专利文本摘要生成模型(IMHAM)旨在解决这类问题。首先,针对结构单一问题本文在专利的文本逻辑结构基础上设计两种基于余弦相似度的算法选出最重要的专利文档,其次,设计了一种新的具有多头注意力机制的序列至序列结构模型以更好地学习专利文本的特征表达,同时在编码器层与解码器层增加自注意力层修改了注意力函数来解决重复生成的问题,最后本文加入改进的指针网络结构来解决原始信息丢失的问题。 [结果] 在公开的专利文本数据集合,本文提出的模型相较于其他模型MedWriter在评价指标Rouge-1、Rouge-2、Rouge-L上分别高出3.2%、2.3%、5.4%。 [局限] 本模型更加适用于专利这种有多种结构的文档体系,对于单一体系的文档结构无法发挥最重要文档算法的选择效果。 [结论] 所提模型对于类似具有多文档结构体系的文本在摘要生成领域的质量提升具有良好的泛化能力,同时生成的摘要具有较好的流畅性。
- 单位