摘要

随着学习者语料库建设规模的不断扩大,语料预处理的自动化需求也愈发迫切。拼写检查是语料预处理中的重要步骤,是后续语料检索及统计分析得以准确进行的前提条件。现有通用自动拼写检查工具并不适于学习者语料库建设。同时,由于学习者拼写错误标注语料数量有限,有监督深度学习模型无法得到应用。针对上述问题,该研究将词向量技术应用于自动拼写检查,结合编辑距离计算以及N-Gram语言模型,设计和构建面向大规模英语学习者语料库建设的自动拼写检查系统。数据测评结果表明,通过词向量增强的自动拼写检查系统在各项主要指标上均超过现有开源自动拼写检查工具,计算效率也能满足语料预处理应用需要。