基于预训练语言模型的语法错误纠正方法

韩明月; 王英林

doi:10.16183/j.cnki.jsjtu.2021.079

摘要

自然语言处理中的语法错误纠正（GEC）任务存在着低资源性的问题，学习GEC模型需要耗费大量的标注成本以及训练成本.对此，采用从掩码式序列到序列的预训练语言生成模型（MASS）中的迁移学习方式，充分利用预训练模型已提取的语言特征，在GEC的标注数据上微调模型，结合特定的前处理、后处理方法改善GEC模型的表现，从而提出一种新的GEC系统（MASS-GEC）.在两个公开的GEC任务中评估该系统，在有限的资源下，与当前GEC系统相比，达到了更好的效果.具体地，在CoNLL14数据集上，该系统在强调查准率的指标F0.5上表现分数为57.9;在JFLEG数据集上，该系统在基于系统输出纠正结果与参考纠正结果n元语法重合度的评估指标GLEU上表现分数为59.1.该方法为GEC任务低资源问题的解决提供了新视角，即从自监督预训练语言模型中，利用适用于GEC任务的文本特征，辅助解决GEC问题.

单位
上海财经大学

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-04 16:34

基于预训练语言模型的语法错误纠正方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友