摘要

为了设计一套完整、高效的英语离线统计机器翻译模型训练系统,研究利用最大似然估计算法和统计机器翻译(Statistical Machine Translation, SMT),并对分布式词对齐模型、分布式翻译模型、分布式语言模型进行训练。研究结果表明,随着数据规模的增加,Seal和Chaski的用时也逐渐变多,但是分布式词对齐Seal的并行训练性能平均比Chaski高2~3倍。Seal的并行训练性能提高了3~4倍;和当前的翻译系统MR相比,Seal的并行训练性能提高了4~5倍。Seal分布式语言模型的并行训练性能和MR相比,提高了5倍左右。说明Seal具有较好的分布式SMT并行化训练性能,利于构建一个完整、高效的大规模分布式SMT英语离线模型训练系统。

全文