摘要
针对不完备混合型信息系统的分类问题,融合粒计算和集成学习思想,引入邻域容差关系,提出基于邻域容差熵选择集成分类算法。首先根据样本中的缺失属性将不完备混合型数据集划分为不同的信息粒,并再次遍历数据集进行最大化信息粒,构成新的粒空间,用以BP神经网络为基分类器的集成算法在粒空间上训练最大化信息粒,构建新的基分类器;然后以每个信息粒的缺失属性作为条件计算出关于类别属性的邻域容差条件熵,各个信息粒的重要度通过邻域容差条件熵进行量化后,通过信息粒的大小、新训练出的基分类器预测准确率以及邻域容差条件熵重新定义各个基分类器的权重;最后根据预测样本对基分类器加权集成,预测分类结果,并与传统的集成分类算法进行对比分析。对于不完备混合型数据集,新提出的集成分类算法能有效提升分类准确率。
- 单位