摘要
针对平行语料匮乏导致的维汉神经机器翻译性能不佳的问题,利用集成学习思想提升维汉神经机器翻译质量,提出基于可重访问的深度优先遍历集成修剪算法,缓解传统集成学习翻译速度慢、模型存储开销大以及集成模型数量越多性能反而下降等问题,并提出应该将集成修剪具体地划分为高准确率优先和低冗余度优先两种需求,让集成修剪更具有目的性。在CWMT2015维汉平行语料上的实验证明:在高准确率优先需求上通过基于可重访问的深度优先遍历集成修剪算法得到的维汉神经机器翻译系统BLEU相对于基线系统提升了2.14;在低准确率优先需求上,在保证修剪后的集成系统BLEU值不低于未修剪的前提下,翻译速度是其2.1倍。
- 单位