摘要
神经机器翻译(Neural Machine Translation, NMT)性能依赖于语料库的数据量和数据质量,经研究分析发现英文数据中存在多词粘连的现象,以下统称为粘连词,出现粘连词影响数据质量。为了进一步提高数据质量,需将粘连词还原成独立词,即词与词之间由空格作为分隔符的形式。针对该问题提出使用Transformer模型对粘连词进行还原。在数据预处理阶段,对数据采取三种不同的策略。实验证明,对数据进行分词、BPE切分的策略最佳,在真实数据集上准确率达到95.5%,在Transformer模型的基础上添加后处理操作后的正确率达到98.5%。该文方法具备可迁移性,对于任一种单词间用空格分割的语言都是可用的。
- 单位