摘要
现有的多变量决策树在分类准确性与树结构复杂性两方面优于单变量决策树,但其训练时间却高于单变量决策树,使得现有的多变量决策树不适用于快速响应的分类任务。针对现有多变量决策树训练时间高的问题,提出了基于信息熵和几何轮廓相似度的多变量决策树(IEMDT)。该算法利用几何轮廓相似度函数的一对一映射特性,将n维空间样本点投影到一维空间的数轴上,进而形成有序的投影点集合;然后通过类别边界和信息增益计算最优分割点集,将有序投影点集合划分为多个子集;接着分别对每个子集继续投影分割,最终生成决策树。在八个数据集上的实验结果表明,IEMDT具有较低的训练时间,并且具有较高的分类准确性。
- 单位