摘要

话题分割是自然语言处理领域的基础任务之一,按照话题相关性原则将文本分割为多个话题相关的文本块。针对现有话题分割模型提取句子深层语义信息方面明显不足,并且忽略了篇章中的层次信息和上下文交互等问题,本文提出了一种多层级信息增强异构图的篇章级话题分割模型MHG-TS。该方法利用篇章中的句子和关键词构建异构图网络,引入BERT预训练语言模型捕获图中节点的深层语义特征,在句子节点一阶邻域层级,利用图注意力机制为语义关联的节点分配更大的边权重,增强了一阶邻域中语义关联节点的信息交互;在关键词节点层级,引入关键词信息加强句子语义特征表示;在句子高阶邻域层级,利用关键词节点作为中介,构建了句子节点高阶邻域中的跨句信息交互,丰富了句子节点之间的非序列关系,最终通过融合多层级信息实现包含全局语义信息的句子表示。相较于当下流行的模型,在多个数据集上,三个评价指标性能平均值分别提高了3.08%、2.56%、5.92%,取得了最佳的实验结果。