摘要

在中文文本纠错任务上,基于神经机器翻译的文本纠错模型已经取得最优表现。提出一种复制机制的纠错模型,它复制待纠错句子中的字词到目标生成文本中。由于中文文本纠错缺乏大量的标注数据,使用降噪自动编码器在大规模非标注中文语料库上预训练基于复制机制的模型。此外,还做了字级别和句子级别的多任务学习。实验结果显示,该方法在NLPCC2018中文文本纠错任务上取得最好成绩。