神经机器翻译面对句长敏感问题的研究

作者:阿里木·赛买提; 斯拉吉艾合麦提·如则麦麦提; 麦合甫热提*; 艾山·吾买尔; 吾守尔·斯拉木; 吐尔根·依不拉音
来源:计算机工程与应用, 2022, 58(09): 195-200.

摘要

随着深度学习的发展神经网络机器翻译有了长足的进步。众所周知,神经机器翻译方法对句子长度比较敏感。为了充分利用海量平行语料,考虑平行语料句子长度信息,把原平行语料划分若干个模块,为每一个模块训练一个子模型,提出一种按句子长度融合策略的神经机器翻译方法。当训练结束时,通过句长边界划分后的模型融合与三特征(困惑度、句长比与分类器)融合排序方法得到译文。实验结果表明,提出的方法在三个不同测试集上英中任务中平均提高了1.2左右的BLEU点,维汉任务中提升了0.4至0.6的BLEU点。说明该方法具有一定的参考意义。