摘要

论文介绍了船用柴油机故障诊断的重要性,为了在原有的传统诊断方法上进行改进,文章引进了数据挖掘的概念。在基于Spark平台的计算框架内,采用Spark系统集成的随机森林函数库对柴油机的运行数据进行了数据分析。考虑到数据量的有限,论文采取了伪分布式布局,在Spark单机模式下完成了数据挖掘任务。实验结果表明,随机森林模型对船用柴油机参数异常的分类准确率很高,能够基本完成对船用柴油机故障的诊断。同时,对随机森林算法在该数据集上的参数设置进行了优选。