摘要
基于数据驱动和机器翻译模型的英语语法纠错是神经语言模型的主要应用之一。人工标注语料库的数量和质量是影响此类方法性能的重要因素。通过分析现有学习者语料的错误类型分布,对常见的错误类型如动词、名词、部分介词、拼写和标点建立混淆集。使用混淆集结合人工规则的方法对单语语料数据进行加噪处理,与学习者语料分别用于基于机器翻译的自动错误生成模型的预训练和微调;使用错误生成模型生成的合成数据与学习者语料共同训练语法纠错模型,模型性能在CoNLL-2014和JFLEG数据集上得到显著性提高。此外,通过使用语法纠正模型纠正学习者语料库源句,将产生的中间数据反馈输入到错误生成模型,并进行交替训练。纠错系统在标准数据集上的性能得到进一步提升。
- 单位