摘要

机器翻译数据集的精确度对翻译模型的性能起决定性作用。传统蒙古语由于字符编码的特殊性,拼写错误十分普遍,网络开放资源字符编码准确性不足20%,这给其文本智能处理造成重大障碍。本文以第十七届全国机器翻译大会(CCMT2021)蒙汉双语公开评测数据集作为原始语料,进行蒙文文本自动校正,构建面向机器翻译的高质量蒙汉句对校正数据集。在CWMT2017测试集上的实验结果表明,经过蒙文文本校正后的蒙汉双语平行句对在蒙汉、汉蒙两个方向上均优于原始评测数据的翻译效果,验证了蒙文校正文本的使用对提升下游自然语言处理任务性能的有效性及实用性。