摘要

针对斜划分决策树算法普遍存在时间效率低、部分算法仅能应用于二分类问题,提出了一种基于加权距离的聚类决策树算法。通过Relief-F算法为预测属性计算权重,并将权重用于树结点中数据的聚类过程,使用分簇结果对结点进行多路划分,得到可直接用于多分类问题的决策树。理论分析和实验结果表明,该算法与经典轴平行决策树相比,拥有更好的泛化能力以及相近的算法时间复杂度,与大部分斜决策树相比,在付出更少计算代价的前提下,获得了近似的正确率以及模型简洁度。