摘要
基于深度学习技术的Transformer模型,使得机器翻译技术取得了重大突破.然而,传统的Transformer模型在进行信息的捕捉和生成过程中,未能充分利用除末层以外的其他层的有效信息,而且传统的基于最大似然原理的单模型训练方法难以使模型的翻译性能得到进一步改善.本文提出了一种对Transformer模型改进的方法,在Transformer模型的子层之间添加合并层,来总结子层的信息.与基于最大似然原理训练方法不同的是,对于改进后的新模型,将对抗性训练和强化学习的方法相结合来进行模型训练.实验结果表明,与Transformer以及传统的训练方法相比,新的模型和训练方法极大地改善了模型的翻译性能,提高了机器翻译的质量.
- 单位