摘要

决策树是一种常用的数据挖掘方法,用于多变量分析时建立分类系统或制定预测结果变量的算法。此方法将一个数据群分割成分枝状节段,构造出包括根节点、内部节点和叶节点的倒置形树状模型。该算法运用非参数方法,不需要套用任何复杂的参数模型就能有效地处理大型复杂的数据库。当样本足够大时,可将研究数据分为训练数据集和验证数据集。使用训练数据集构建决策树模型,使用验证数据集来决定树的适合大小,以获得最优模型。本文介绍了构建决策树的常用算法(包括CART,C4.5,CHAID和QUEST),并描述了SPSS和SAS软件中将树结构可视化的程序。