摘要
为了从大量日常收集的航空安全信息中快捷、准确、高效地获取可能存在的安全隐患,为安全风险控制提供明确的改进方向,结合文本分析和机器学习对给定类型的航空安全信息根据其内容聚类是挖掘有效信息的重要基础。以2017年中国民航收集的系统失效/卡阻/故障事件为样本,在Python 3.6环境下通过对文本预处理,采用对数的词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)进行特征提取以及K-means方法,建立该样本信息的自动聚类模型,基于多维缩放(multi dimensional scale, MDS)降维输出可视化结果。分析结果表明,文本信息聚类和可视化能够快速自动地对信息整理归档,识别各样本信息之间相似程度,轻松锁定关键信息,为下一步风险管控提供有针对性的措施。
- 单位