基于预训练的无监督神经机器翻译模型研究

薛擎天; 李军辉; 贡正仙; 徐东钦

摘要

依赖于大规模的平行语料库，神经机器翻译在某些语言对上已经取得了巨大的成功。无监督神经机器翻译UNMT又在一定程度上解决了高质量平行语料库难以获取的问题。最近的研究表明，跨语言模型预训练能够显著提高UNMT的翻译性能，其使用大规模的单语语料库在跨语言场景中对深层次上下文信息进行建模，获得了显著的效果。进一步探究基于跨语言预训练的UNMT,提出了几种改进模型训练的方法，针对在预训练之后UNMT模型参数初始化质量不平衡的问题，提出二次预训练语言模型和利用预训练模型的自注意力机制层优化UNMT模型的上下文注意力机制层2种方法。同时，针对UNMT中反向翻译方法缺乏指导的问题，尝试将Teacher-Student框架融入到UNMT的任务中。实验结果表明，在不同语言对上与基准系统相比，本文的方法最高取得了0.8～2.08个百分点的双语互译评估(BLEU)值的提升。

单位
苏州大学

收藏分享被引浏览

更新时间：2024-03-20 23:30

基于预训练的无监督神经机器翻译模型研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友