摘要

针对民航机务维修领域安全风险研究过程中文本数据利用不充分造成风险要素遗漏的问题,提出了基于改进LDA的机务风险要素识别模型(TF-IDF and Gaussian function-LDA,TG-LDA)。通过构建机务维修领域词典,改善文本挖掘预处理中分词精度不高的问题;针对LDA主题模型输入样本量大、噪声多的问题采用TF-IDF算法与高斯函数结合的词条双重优化模型对其优化,最终识别出26类机务维修不安全事件风险要素,并通过可视化进行了风险要素分析。结果表明,与传统算法对比,困惑度由7.19×10-4降低至2.13×10-4,改善了文本挖掘中风险要素遗漏的问题,同时识别出机务维修领域主要的风险要素为人员认知存在偏差、维修过程违规作业、人员遗忘/疏漏、检查不全面及飞机部件出现故障。