摘要
新能源发电功率数据是电力大数据的重要组成部分,良好的数据质量为功率预测、负荷预测、电网规划运行、经济调度、需求侧响应等工作研究提供重要保障。新能源发电功率数据中的异常值占少数,因此新能源发电数据属于不平衡数据,传统的异常值检测大多使用单一模型,检测准确率相对较低。此外,在面对具有长尾分布特性的不平衡数据集时,传统单一模型的同权重训练模式容易造成多数类数据过拟合现象,导致检测精度大大降低。针对传统单模型异常值检测方法的不足,该文提出一种基于Boosting集成框架的异常值检测方法。总体框架采用3层递进式训练模式,其中基分类器对原始数据进行初步判断,由基分类器检测结果构成异常正常数量对等的平衡数据,用于训练次级分类器,最终决策器将对分歧样本再次训练。在真实风电数据上的测试结果表明,基于Boosting集成框架的模型相比于几种常用单一模型的异常值检测准确率有较大提升,能有效解决传统单一模型在不平衡数据上检测精度低的问题;与Bagging、Stacking集成框架相比,Boosting集成框架模型拥有最优的检测精准率、召回率和F1评分(F1Score)。
- 单位