基于数据增强及领域适应的神经机器翻译技术

作者:谷舒豪; 单勇; 谢婉莹; 郭登级; 王树根; 邵晨泽; 薛海洋; 张良; 冯洋
来源:江西师范大学学报(自然科学版), 2019, 43(06): 643-648.
DOI:10.16357/j.cnki.issn1000-5862.2019.06.14

摘要

近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.