摘要
近年来供热二次网平衡调控和节能日益成为供热企业关注的焦点。随着热计量器具的大量安装和海量数据的采集,供热企业积累了前所未有的供热末端数据,但是这些数据存在着数据量大、有一定失真度等问题,使得供热企业由于缺乏合适的工具而无法发挥这些数据的作用。基于上述原因,本文提出了一种基于孤立森林的分布式算法,通过对热计量表数据进行分析,对数据进行清洗和筛选,从而正确识别出供暖异常情况。本文将孤立森林算法部署到spark分布式计算平台上,极大地提高了算法的运行速度,并且误报率(FPR)和查全率(TPR)等指标都优于常用的K均值(K-Means)算法和高斯混合模型(GMM)算法。
- 单位