基于多亚词序列融合的神经机器翻译

作者:刘婉月; 艾山·吾买尔*; 李哲; 韩越; 张大任; 宜年
来源:中文信息学报, 2023, 37(02): 87-106.

摘要

在神经机器翻译模型中,BPE(Byte Pair Encoding)方法用于解决模型不能正确翻译罕见词和不可见词的问题。但是BPE只能将单词切分成唯一的亚词序列,面对形态丰富的语言,同一个词存在多种不同的组合,但是模型只能学习单词的一种组合方式,这会阻碍模型更好地学习单词的不同组合特性。该文提出一种加标签融合多种亚词序列的方法,不同BPE融合次数切分相同的训练数据,得到不同的亚词序列,进行加标签融合,其中相同单词的不同亚词参与训练,使模型能够更好地学习词的不同的组合形式。该文中的方法在形态复杂的语言和形态简单的语言对上均有了0.5个BLEU值以上的提高。实验表明,不同的亚词序列质量越好,相似度越低,融合后训练的翻译模型质量越好。