摘要

近年来,基于分类回归树(CART)模型被越来越多地用于各类数据分析中,在模型的解释性和预测性能等方面取得了很多研究成果。不纯度函数是衡量树模型中预测子空间同质性的唯一指标,在分裂变量及分裂值的选择上起着重要的作用。文章通过对反馈变量不同数据类型的梳理,将树模型中的不纯度函数归为:广义熵、广义基尼均值差、度量函数等,目的是进一步发展树模型,为大数据时代探索复杂数据结构提供可行的非参数方法。