基于深度学习的语义级中文文本自动校对研究

张芙蓉; 罗志娟

doi:10.13829/j.cnki.issn.1671-9654.2022.03.008

摘要

中文文本校对技术在字词级和语法级层面已取得了较好的效果，但在语义层面还没有比较成熟的方法。为实现语义级中文文本自动校对，将深度学习技术引入自动校对。首先，出于中文文本语义级自动校对的需要，在现有已公开的中文校对测试集的基础上，加入语义错误样本数据，并通过数据增强技术，扩大语义差错数据规模，以使训练集及测试集中语义错误占比达到50%以上。其次，针对典型的语义错误类型，构建其对应的语义知识集，包括成语知识集、古诗词知识集、历史人物主要事件朝代年表知识集、敬谦词知识集、地理知识集等。在建立语义知识集的基础上，基于BERT预训练模型对数据集进行训练。最后，经过预训练，在初步确定模型之后，结合关键参数，进行微调，确定最终的自动校对模型。

单位
长沙航空职业技术学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 19:55

基于深度学习的语义级中文文本自动校对研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友