摘要
本发明公开了提高梯度提升树模型的特征值作用和防止过拟合的方法。本发明通过将离散化前特征值添加到损失函数中,最终得到最佳分裂点及特征值权重和偏置,进一步尽可能多地利用离散化前的数据。对于输入特征与输出目标相关性较强的数据,模型表现性能相对于梯度提升树有较大的提升;本发明还给出了一种t分布防止过拟合方式,通过大数定理筛选分裂点,在实际应用中可以通过该方式找到更加准确的分裂点,防止过拟合。本发明解决了梯度决策树模型只考虑特征值离散化后的大小,而不会考虑离散化前特征值数值的真实分布以及过拟合问题。本发明可广泛应用于广告预测、人工智能、图像识别、语音识别等各个方面。
- 单位