摘要

本发明公开了一种适用于高维大数据集的数据分类方法,本发明主要解决现有方法在处理高维大数据集时很难选取有效特征,因而收敛速度慢且准确率低的问题。其实现步骤是:1、输入训练样本数据集和测试样本数据集;2、对训练样本集进行采样;3、计算特征权重;4、用轮盘赌法选择特征;5、构建基决策树;6、获得随机森林模型在测试集上的分类结果。本发明将轮盘赌法应用于特征选择,在保证特征随机扰动的同时,使有用特征被抽取的概率更大,可应用于高维大数据集的分类。