摘要

跨语言词向量表示旨在利用语言资源丰富的词向量提高语言资源缺乏的词向量表示.已有方法学习2个词向量空间的映射关系进行单词对齐,其中生成对抗网络方法能在不使用对齐字典的条件下获得良好性能.然而,在远语言对上,由于缺乏种子字典的引导,映射关系的学习仅依赖向量空间的全局距离,导致求解的词对存在多种可能,难以准确对齐.为此,提出了基于双判别器对抗的半监督跨语言词向量表示方法.在已有对抗模型基础上,增加一个双向映射共享的、细粒度判别器,形成具有双判别器的对抗模型.此外,引入负样本字典补充预对齐字典,利用细粒度判别器进行半监督对抗学习,消减生成多种词对的可能,提高对齐精度.在2个跨语言数据集上的实验效果表明,提出的方法能有效提升跨语言词向量表示性能.