摘要
语法错误检测是自然语言处理中自动校对技术的重要环节。中文语法灵活多变,而且错别字和语法错误会严重影响其周边范围的词义语义,甚至整个句子的原本含义,另外,现有深度学习模型为提高性能经常引入较多外部信息,也导致训练难度大。因此该研究将语法错误检测视为序列标注任务,提出了一种基于Electra的神经网络模型,以门控双线性神经网络Gated-Bilinear为其下游结构,在预训练语言模型基础上利用相邻Token的特征加强字向量的局部语义相关性,减轻其受到的错误语义影响。研究使用了历年中文语法错误检测(CGED)任务的数据集,训练并评估模型的性能,实验表明,使用该方法的检错性能在单模型和多模型集成方法上均达到最优水平。
-
单位贵州轻工职业技术学院; 贵州大学