基于数据增强和多任务特征学习的中文语法错误检测方法

谢海华; 陈志优; 程静; 吕肖庆; 汤帜

摘要

由于中文语法的复杂性，中文语法错误检测(CGED)的难度较大，而训练语料和相关研究的缺乏，使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型，APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式，弥补训练语料的不足。数据增强能够有效地扩充训练集，而预训练语言模型蕴含丰富的语义信息又有助于语法分析，基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试，取得了优于其他对比模型的结果。

单位
北京大学王选计算机研究所

收藏分享被引浏览

更新时间：2024-03-20 17:14

基于数据增强和多任务特征学习的中文语法错误检测方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友