基于知识图谱与BERT的安全领域汉字文本纠错模型

王子斌; 张全; 谢聪<sup>*</sup>; 余沛; 余泓江; 李沣庭

摘要

针对安全领域所涉及的文本中存在大量人为混淆的文字的问题，提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型，表征汉字的读音、字形、语义三个维度的特征，构建纠错算法。首先，构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系，并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量；其次，基于知识图谱中字形关系构建node2vec模型，得到node2vec字形向量，并结合卷积神经网络（CNN）方法训练字形向量，两者之和作为最终的字形向量；最后，基于BERT预训练模型，融合读音、字形、语义三维度的向量，并在不同维度间使用自注意力机制加权求和，发现错误字位置并选择正确的候选字。为验证所提模型的有效性，在安全领域诈骗短信数据集上，将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明，所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点，比SpellGCN分别提升了22.2、13.7个百分点，比Soft-Masked BERT分别提升了20.8、32.7个百分点。可见该纠错模型能够有效识别安全领域文本的错字，在网络诈骗文本分类、要素提取等下游任务中有较好的效果。

单位
重庆市公安局; 南京中新赛克科技有限责任公司

收藏分享被引浏览

更新时间：2024-03-18 20:30

基于知识图谱与BERT的安全领域汉字文本纠错模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友