摘要
当前互联网免费可用的在线翻译系统均是使用通用语料训练出来的神经机器翻译模型,在通用语义环境下翻译出色,而在特定的垂直领域(如计算机专业领域)中,由于训练文本和模型训练算法缺乏针对性,导致翻译结果出现专业词汇错漏,文本晦涩难懂。因此,实现特定垂直领域的自动化机器翻译的需求越来越大。通过网络爬虫获取计算机算法类相关的英汉双语例句,基于Word2Vec算法生成含有上下文信息的词向量,将词向量嵌入到Google开源GNMT模型训练英汉翻译模型,基于训练模型实现简易翻译软件。通过对照实验,探究Word2Vec算法中词向量长度对计算词汇间文本相似度的影响和对GNMT训练效果的影响,以及GNMT超参数中的隐藏层单元数numunit、批尺寸batchsize对训练效果的影响。综合实验结果训练最佳的英汉翻译模型。
- 单位