摘要

双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无关的元框架。而这种算法充分利用适当规模的双语种子资源和超大规模单语资源增量扩建双语句对资源,逐级训练机器翻译模型提高译文质量。多个语种的神经机器翻译实验结果证明,该文提出的语料循环推进能够利用源源不断的单语资源自我进化。其有效性不仅体现在易于实现高性能低资源机器翻译,更体现在是快速搭建精准领域机器翻译系统的实用选项。