摘要

随着机器学习技术的发展,文字翻译模型的翻译效率与准确率逐步提高,要达到理想的翻译效果离不开大量高质量的平行语料.疫情以来,我国坚持扩大内需、形成强大的国内市场,各民族间的联系比以往更为紧密,各种语言间的翻译尤为重要.蒙古语作为一类使用量较大的少数民族语言,不同词形涵义千差万别且缺少足够的平行语料支撑训练,导致现有的语言翻译模型效果不佳.本文针对以上问题,进行如下研究:(1)提出字符级语句分割,缓解平行语料不足带来的未登录词问题,降低了计算成本.(2)使用去噪自编码技术,迫使模型学习如何更加鲁棒地表达输入特征,增强模型的泛化能力.(3)使用无监督对偶式迭代翻译模型,将汉蒙翻译与蒙汉翻译以对偶方式同时进行无监督式迭代训练,实现语言建模与双向翻译,通过比较同数据集下该模型与传统Transformer模型训练的BLEU值得出,该模型具有更好的性能、更高的翻译准确率.

  • 单位
    赣南师范大学; 中国科学院合肥智能机械研究所; 中国科学院,合肥智能机械研究所

全文