摘要
为预防铁路安全事件的发生,利用文本挖掘相关技术和宽度学习系统(BLS),探讨铁路安全事件分类,包括设备问题、施工问题、作业问题、外部环境问题4大类。通过清洗及结构化314条文本数据,运用Jieba分词+自定义词表+通用停用词表完成中文分词;基于卡方检验建立223个特征词,基于词频-逆文档频率(TF-IDF)计算特征词权重;基于BLS完成事件成因分类,设计3种基于BLS的分类方法。结果表明:该系统通过挖掘铁路安全事件报告的文本信息,能够形成有效的分类模型;利用BLS自身节省算力的特性,并通过添加特征增强节点的方式,可提高分类准确性,从而提高行业管理水平。
-
单位中国铁道科学研究院集团有限公司; 朔黄铁路发展有限责任公司