摘要

梯度提升树(GBDT)在每次操作时都会将所有训练数据加载到内存中,这会浪费大量空间并限制训练数据的大小。基于此,本文首先介绍LightGBM提出的动机,其次介绍实现LightGBM的算法,即GOSS算法(基于梯度的单边采样)和EFB算法(互斥特征捆绑),然后例举了在Python语言中使用Light GBM模型对3个二分类数据集分别进行分类预测的应用,计算出模型的相关评估指标以及在3个数据集中的运行时长和所占用的内存,并与Ada Boost、GBDT、XGBoost3个集成算法进行对比,最后总结了LightGBM模型的优点(计算速度快、占用内存小)和缺点(对噪声点比较敏感等)。

  • 单位
    贵州财经大学

全文