摘要

针对现有决策树算法对连续性数据分类的信息丢失、效果不佳等缺点,提出一种邻域决策树(NDT)构造算法。首先,挖掘了邻域决策信息系统上的变精度邻域等价粒,并探讨了相关性质;然后基于变精度邻域等价粒构建邻域基尼指数度量,以度量邻域决策信息系统的不确定性;最后,用邻域基尼指数度量诱导出树节点的选取条件,并以变精度邻域等价粒为树分裂规则,从而构建NDT。在UCI数据集进行实验的结果表明,NDT算法的准确度比基于信息熵的决策树算法ID3、基于基尼指数的决策树算法CART、基于信息增益率的决策树(C4.5)算法和融合信息增益和基尼指数(IGGI)算法平均提高了20个百分点左右,验证了NDT算法的有效性。