探索低资源的迭代式复述生成增强方法

张琳; 刘明童; 张玉洁<sup>*</sup>; 徐金安; 陈钰枫

摘要

复述生成旨在同一语言内将给定句子转换成语义一致表达不同的句子。目前，基于深度神经网络的复述生成模型的成功依赖于大规模的复述平行语料，当面向新的语言或新的领域时，模型性能急剧下降。面对这一困境，提出低资源的迭代式复述生成增强方法，最大化利用单语语料和小规模复述平行语料迭代式训练复述生成模型并生成复述伪数据，以此增强模型性能。此外，提出了句子流畅性、语义相近性和表达多样性为基准设计的伪数据筛选算法，选取高质量的复述伪数据参与每轮模型的迭代训练。在公开数据集Quora上的实验结果表明，提出的方法仅利用30%的复述语料在语义和多样性指标上均超过了基线模型，验证了所提方法的有效性。

单位
北京交通大学

收藏分享被引浏览

更新时间：2024-03-20 12:37

探索低资源的迭代式复述生成增强方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友