摘要

在进行跨语言自然语言处理时,缺少双语资源是非常棘手的问题,而这在语言资源匮乏的场景下是非常普遍的.此时,利用好非平行语料中蕴含的翻译知识变得更为重要.由于语料不平行,从中获取翻译知识意味着小数据、无监督学习,因此极具挑战,而取得的结果通常是双语词典的形式.这既是人工智能领域重要的学术问题,也在语言资源匮乏场景有着巨大的应用价值.本文针对前人研究中存在的问题,介绍一系列工作,从各个角度探索如何更好地利用非平行语料构建双语词典.

  • 单位
    智能技术与系统国家重点实验室; 清华大学