摘要

汽轮机运行过程会产生多样且大量数据。为适应大数据驱动及仿真建模对高质量数据的要求,高效的数据清洗十分必要。利用长短记忆层对于时序数据出色的非线性拟合能力搭建了汽轮机半监督数据清洗模型。模型选取机组的3个边界条件作为输入,对待清洗数据进行预测,根据预测值与实际值的残差完成异常值剔除,之后选用模型的预测值进行数据填充,保证数据的完整性。利用模型对某电厂650 MW机组进行数据清洗,并且为克服样本失衡给清洗模型指标选取带来的问题,对准确率进行了改进并将其作为清洗效果的衡量指标。结果表明:深度长短记忆网络的数据清洗模型改进准确率高于其他3种常见清洗方法,可有效识别数据是否异常,且可利用预测值进行数据填充,保证清洗前后数据量一致。

全文