摘要

神经机器翻译在双语资源丰富的场景下,具有良好的性能,但在资源稀缺的情况下,其翻译性能急剧下降.针对稀缺资源翻译任务,本文提出一种基于子树交换的数据增强方法.首先,将目标端句子生成对应的句法树;其次,使用子树交换算法生成新的伪单语数据;最后,利用反向翻译方法生成目标译文,构成伪平行数据.实验结果表明,同基线模型和已有数据增强方法能相比,基于句法子树交换数据增强方法能显著提高模型的翻译性能.