摘要
(CLS)旨在给定一个源语言文件(如越南语),生成目标语言(如中文)的摘要。最近,端到端的CLS模型在大规模、高质量的标记数据基础上取得了相当良好的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资源语言翻译模型的性能受限,翻译噪音会被引入到CLS语料库中,这严重损害了CLS的模型性能。因此,提出利用多策略强化学习来解决低资源噪声训练数据场景下的CLS模型训练问题,引入源语言摘要作为额外的监督信号来缓解翻译后的噪声目标摘要影响。具体来说,首先通过计算源语言摘要和生成目标语言摘要之间的单词相关性和单词缺失程度来学习强化奖励,然后在交叉熵损失和强化奖励的约束下优化CLS模型。为验证所提出模型的性能,构建了一个有噪声的汉越CLS语料库,根据实验结果在汉语-越南语跨语言摘要数据集和越南语-汉语跨语言摘要数据集上,所提出的模型ROUGE分数明显优于其他基线模型,相比NCLS基线模型,该模型RG-1分别提升了0.71和0.84个点,提出的方法能够有效弱化噪声干扰,提高生成摘要的质量。
-
单位自动化学院; 昆明理工大学