摘要
本文将深度学习技术应用于汉藏机器翻译任务中,采用了编码器—解码器结构。在编码阶段,首先将汉语句子中的每个词映射为定长的词向量,并通过循环神经网络压缩整个句子的全部信息。在解码过程中引入注意力模型,使得解码器更集中注意当前翻译词的上下文依赖词,并每次选择概率最大的翻译词生成目标句子。使用该方法在以法律文本、政府公文、新闻为主的书面语语料和口语类语料上实验,所得数据表明,在书面语语料上,NIST和BLEU分别达到了6.39和0.296;在口语语料上,NIST和BLEU分别达到了5.41和0.222。
-
单位中国科学院软件研究所; 中国社会科学院民族学与人类学研究所