基于Transformer的英文粘连词还原方法

朱鑫洋; 迟呈英; 战学刚

摘要

神经机器翻译(Neural Machine Translation, NMT)性能依赖于语料库的数据量和数据质量，经研究分析发现英文数据中存在多词粘连的现象，以下统称为粘连词，出现粘连词影响数据质量。为了进一步提高数据质量，需将粘连词还原成独立词，即词与词之间由空格作为分隔符的形式。针对该问题提出使用Transformer模型对粘连词进行还原。在数据预处理阶段，对数据采取三种不同的策略。实验证明，对数据进行分词、BPE切分的策略最佳，在真实数据集上准确率达到95.5%,在Transformer模型的基础上添加后处理操作后的正确率达到98.5%。该文方法具备可迁移性，对于任一种单词间用空格分割的语言都是可用的。

单位
辽宁科技大学

收藏分享被引浏览

更新时间：2024-03-19 04:48

基于Transformer的英文粘连词还原方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友