摘要
文本语法错误检测与纠正旨在自动识别并纠正文本中的语法错误。与汉语、英语等语言不同,该任务在一些泰语语言的文本上受制于数据规模问题,仍然只能针对简单规则进行识别和校正。该文结合相应的语言学及错误类型特点,基于人工启发式规则,利用单语数据构建了一定规模的泰语文本语法错误检测与纠正语料库。基于该语料库,该文提出一种融合语言学特征的泰语文本语法错误检测方法,在多语言BERT序列标注模型的基础上融合字符、词与词性的深层语义表达。实验结果表明,该文方法的错误检测性能比仅依赖于多语言BERT的基线模型提升了1.37%的F1值,并且模型性能会随着训练数据规模的增大而提高,证明了该文语料库构建方法的有效性。
-
单位昆明理工大学; 自动化学院