摘要

针对现有舆情监测系统对于未登录词的钝化问题,构建了一个基于BERT模型(bidirectional encoder representation from transformers,双向transformer的encoder)的半监督自更新的涉警敏感词语料库系统。首先借助训练出的BERT文本分类器进行敏感性评估,再借助NER方法、新词发现方法和必要的人工检验,获取用于训练的敏感语料以其的特征词。最后,语料库基于朴素贝叶斯分类方法,设置了必要的精度检验和版本控制机制,形成了一个能够半自动更新的语料库系统。通过朴素贝叶斯再分类的校验表明,语料的区分度大,效果较好,分类结果具有应用价值。