摘要
目前机器翻译训练普遍依赖于大规模平行语料,但在电子商务领域中,公开的大规模平行语料几乎不存在且很难构建。为了解决平行资源稀缺的问题,将大量外领域平行数据迁移应用于内领域非平行数据上的方法称为无监督领域适应。但神经网络机器翻译的领域适应内领域中存在词对匹配不佳的问题,为了解决该问题提出了短语后验证的无监督领域适应电商机器翻译。获取了中文和英文电子商务的单语数据,在无监督领域适应的迭代过程中,采取逐步数据混合训练策略,提升翻译性能,在此基础上引入短语后验证改善词对匹配问题。根据大量电商机器翻译基准实验对比,结果表明,短语后验证的无监督领域适应方法在中英双向电子商务领域上较最强基线系统提升约1.5 Bleu点。
- 单位