融合术语信息的神经机器翻译参数初始化研究

作者:张超轶; 陈媛; 张聚伟
来源:河南科技大学学报(自然科学版), 2022, 43(04): 61-7.
DOI:10.15926/j.cnki.issn1672-6871.2022.04.010

摘要

针对电气工程领域英汉机器翻译中平行语料稀缺的问题,在使用通用语料训练翻译模型的基础上,提出了一种融合领域术语信息的嵌入层参数初始化方法。首先,对文本进行分词预处理,将术语词划分为一个最小单元;然后,利用Glove和Word2vec在不同单语语料上训练得到两种词向量,并分别初始化嵌入层参数中常用词和术语词的向量表示;最后,利用术语词典对未登录词进行查找替换,缓解了翻译过程中由于术语而产生的严重未登录词问题。将基于注意力机制的神经机器翻译模型作为基线系统进行实验,结果表明:本文模型在电气领域测试语料上的翻译性能提高了2.713个BLEU值点。

全文