摘要
针对电气工程领域英汉机器翻译中平行语料稀缺的问题,在使用通用语料训练翻译模型的基础上,提出了一种融合领域术语信息的嵌入层参数初始化方法。首先,对文本进行分词预处理,将术语词划分为一个最小单元;然后,利用Glove和Word2vec在不同单语语料上训练得到两种词向量,并分别初始化嵌入层参数中常用词和术语词的向量表示;最后,利用术语词典对未登录词进行查找替换,缓解了翻译过程中由于术语而产生的严重未登录词问题。将基于注意力机制的神经机器翻译模型作为基线系统进行实验,结果表明:本文模型在电气领域测试语料上的翻译性能提高了2.713个BLEU值点。
- 单位