摘要

本文立足于当下政府对中国各类企业安全方面的管控情况,了解到尽管相关管控工作已取得不错的成绩,但是仍然存在部分企业企图投机取巧,在自主填报安全生产隐患过程中出现虚报或者假报隐患内容。上报的隐患文本中含有强关联性的词语,文本数据的格式也多半是结构化、半结构化以及非结构化,为了提高监管手段,根据企业提供的安全文本数据并利用文本挖掘技术能够更高效率进行不合格企业的排查。本文利用BERT模型中的注意力机理,建立了一个基于BERT模型的企业安全风险文本的语义表达,探索企业上报的安全隐患文本内容的分类问题,并对企业是否具有安全隐患风险进行预测。通过对比深度学习模型BiLSTM,机器学习模型随机森林、支持向量机和朴素贝叶斯方法的预测结果。最终通过对准确率,F1得分等各项评价指标进行检验,评价结果均在97%以上。由此认为BERT文本分类模型具有较好的性能,可以较准确地预测出具有安全隐患的不合格企业。