摘要

现有多模态机器翻译(Multi-modal machine translation, MMT)方法将图片与待翻译文本进行句子级别的语义融合.这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题,并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合语义的问题.针对这些问题,提出了一种跨模态实体重构(Cross-modal entity reconstruction, CER)方法.区别于将完整的图片输入到翻译模型中,该方法显式对齐文本与图像中的实体,通过文本上下文与一种模态的实体的组合来重构另一种模态的实体,最终达到实体级的跨模态语义融合的目的,通过多任务学习方法将CER模型与翻译模型结合,达到提升翻译质量的目的.该方法在多模态翻译数据集的两个语言对上取得了最佳的翻译准确率.进一步的分析实验表明,该方法能够有效提升模型在翻译过程中对源端文本实体的忠实度.

全文