多策略汉英平行语料的过滤方法研究

作者:张国成; 王颖敏; 钟恩俊; 江秋怡; 江舫; 章栋; 朱宏康; 陈毅东*; 史晓东
来源:厦门大学学报(自然科学版), 2021, 60(04): 641-647.

摘要

为了解决汉英平行语料中带噪声的问题,通过设计规则方法、统计方法(包括Zipporah系统、词对齐模型、语言模型)以及神经网络方法(包括翻译模型和双语预训练模型),从不同侧重点对汉英句对平行程度进行度量.结果表明翻译模型和双语预训练模型在过滤优质平行语料任务上有良好表现.最后,对于表现优异的方法,按照加法和乘法两种方式进行加权融合,取得了不错的双语互译评估结果,对语料过滤任务具有一定参考价值.