摘要

传统K近邻算法忽略每个属性对分类的不同重要程度,将每个属性同等看待,在计算样本间距离时赋予每个属性相同的权重,影响样本分类的正确性。利用单一指标来确定属性重要性过于片面,无法全面反应属性对分类的重要程度。针对这一问题,利用信息增益和基尼不纯度的综合指标作为判断属性重要程度的指标,该综合指标越大,属性对分类的重要程度越高。并依据综合指标构造属性权重,计算样本间的加权距离进行分类。为验证该方法的有效性,分别基于UCI数据库中Iris数据集和Wine数据集对基于信息增益和基尼不纯度综合指标的加权K近邻算法进行仿真实验,并与传统K近邻算法和基于信息增益加权K近邻算法进行对比,基于信息增益和基尼不纯度综合指标的加权K近邻算法错误率均低于传统K近邻算法和基于信息增益加权K近邻算法。结果表明该方法比传统K近邻法和基于单一指标加权K近邻算法能更有效地对样本进行分类。